（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：58 大小：2.60MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf_第2页

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf_第3页

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf_第4页

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf_第5页

已阅读5页，还剩53页未读，继续免费阅读

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 l i i i iii i i i iii i ii i i iiii y 19 5 8 5 7 3 目前v o i p 越来越多的应用于全球m 互联的i n t e r a c t 环境中，并随着下一代网络体系的发展、全i p 网络的逐渐应用获得更大的发展。而对于一个v o i p 意义上的多方通信系统，语音业务作为其最传统的业务，也是最常用的业务，它的性能优劣是通信系统不可忽视的质量指标。低编码位率、鲁棒性好、适合无线环境的语音编码算法的重要性越来越明显。而且大多数的语音算法都有专利限制或者速率单一等问题，成为企业通信系统发展的制约因素。s p e e x 是基于c e l p 的开源算法，集成窄带、宽带、超宽带的可变速率，能根据网络状况自适应的选择不同的语音编码速率，减少误帧和丢帧对话音的影响、以期获得尽量好的话音质量，但缺乏系统的语音引擎解决方案。本文首先介绍了关于语音编解码的基础知识，在对c e l p 关键算法原理分析的基础上，透彻研究了s p e e x 语音编解码算法原理、算法所实现的特点、不同的编码模式及其体系的架构与其性能特点，对语音预处理的技术、s p e e x 编码适应性、数据采集和原始编解码器的逻辑细节进行了系统的分析。在此基础上，结合i n s t l i n k 多方通信系统，提出基于s p e e x 编解码技术的语音引擎方案，实现其编码模块、解码模块、控制系统、混音模块，并在i n s t l i n k 系统上运行。实现单端语音和会议语音功能。关键字：语音编码、c e l p 、s p e e x 、语音预处理、编码逻辑、引擎设计实现 a b s t r a c t c u r r e n t l y , v o l pi sm o r ea n dm o r eu s e di ni n t e r a c te n v i r o n m e n t w h i c hi sg l o b a li p i n t e r c o n n e c t e d a n dw i t ht h ed e v e l o p m e n to fn e x tg e n e r a t i o nn e t w o r ks y s t e m ，t h e g r a d u a la p p l i c a t i o no f a l li pn e t w o r k ，v o l pw i l lg e tg r e a t e rd e v e l o p m e n t f o ra s e n s eo f m u l t i v o l pc o m m u n i c a t i o r ss y s t e m ，t h em o s tt r a d i t i o n a lv o i c es e r v i c e sa sp a r to fi t s b u s i n e s s ，i st h em o s tc o m m o n l yu s e db u s i n e s s ，i t sp e r f o r m a n c ew h i c hm e r i t so ft h e c o m m u n i c a t i o ns y s t e ma saq u a l i t yi n d i c a t o rc a n tb ei g n o r e d s p e e c hc o d i n ga l g o r i t h m sw h i c ha r eo fl o we n c o d i n gb i tr a t e ，r o b u s ta n da r e s u i t a b l ef o rw i r e l e s se n v i r o n m e n ti sp a r t i c u l a r l yi m p o r t a n t , a n dm o s to ft h es p e e c h a l g o r i t h m sh a v eas i n g l er a t e o ra r eo fp a t e n tr e s t r i c t i o n s ，a l lo ft h i sb e c a m et h e c o n s t r a i n t st ot h ed e v e l o p m e n to fe n t e r p r i s ec o m m u n i c a t i o ns y s t e m s s p e e xs p e e c h c o d e ca l g o r i t h mw h i c hi sb a s e do ns o u r c ec e l pa l g o r i t h mi so p e n ，i n t e g r a t e do f n a r r o w b a n d ，b r o a d b a n d ，u l t r aw i d e b a n dv a i l a b l er a t e ，c a l lb ea d a p t i v ew i t hn e t w o r k c o n d i t i o n sa c c o r d i n gt ot h ec h o i c eo fd i f f e r e n tv o i c ec o d i n gr a t e s ，r e b e ct h ee r r o r f r a m ea n dd r o p p e df r a m e so nt h ei m p a c to fv o i c e ，t oo b t a i na sg o o dv o i c eq u a l i t y , b u t t h e r ei sa l s ol a c k i n go fs y s t e ms o l u t i o n sf o rv o i c ee n g i n e t h i sp a p e rf as ti n t r o d u c e s t h ev o i c ec o d e c0 1 1t h eb a s i c s ，b r i e fd e s c r i b e st h ep r i n c i p l eo fc e l p , s t u d i e ss p e e x v o i c ec o d e ca n di t sp e r f o r m a n c ec h a r a c t e r i s t i c si nd e t a i lw h i c hi sb a s e do nc e l p t e c h n o l o g y , a n dt h e na n a l y z e ss o m eo ft h ep r e t r e a t m e n to nt h es p e e c ht e c h n o l o g y , a d a p t i v ec o d i n g ，d a t aa c q u i s i t i o na n dt h el o g i co f t h eo r i g i n a ld e t a i l so fc o d e c f i n a l l y ， o nt h i sb a s i sa b o v e ，c o n s i d e ri n s t l i n km u l t ic o m m u n i c a t i o ns y s t e m ，p r o p o s e sv o i c e c o d e ct e c h n o l o g ye n g i n ep r o g r a m sw h i c hi sb a s e do ns p e e x ，r e a l i z ei t sc o d i n gm o d u l e ， d e c o d i n gm o d u l e ，c o n t r o ls y s t e ma n dm i x i n gm o d u l e ，a n d r u ni to nt h ei n s t l i n ks y s t e m t h ee n g i n ef u l f i l l ss i n g l e e n dv o i c ea n dv o i c ec o n f e r e n c e k e y w o r d ：s p e e c hc o d i n g c e l p s p e e xs p e e c hp r e p r o c e s s i n gc o d i n gl o g i c e n g i n ed e s i g na n di m p l e m e n t a t i o n 第一章绪论第一章绪论 1 1 研究的背景和意义网络电话v o i p 是基于i p 网络的语音传输技术，它将话音的模拟信号转换位数字信号并在i n t e m e t 上进行传输。简单地说，它是首先通过一连串的a d 转换、编码、压缩、打包等程序来处理语音信号，并将语音数据在m 网络上传输到目的端，然后再经由相反的一连串程序，将语音数据还原成原来的语音信号播放给接听者。v o i p 目前已被广泛地应用于全球i p 互联的i n t e m e t 环境中。它与模拟语音通信系统相比具有抗干扰性强、保密性好、易于集成、成本低廉等特点，并可开发出更多的增值业务【l j 。目前v o i p 系统的主要的应用还是在语音数据方面。然而，p 网络的语音传输质量使得v o i p 系统存在分组延迟、延迟抖动、丢包等问题，使得用户听到的语音会出现不连贯甚至中断的现象。现有的v o i p 系统还难以实现高质量的实时语音通信。如何提高语音通信质量是v o i p 技术研究的一个重要课题【2 1 。 s p e e x 是一套功能强大的语音引擎，能够实现高质量和低比特率的编码。它不仅提供了基于码激励线性预测( c e l p ) 算法的编解码模块，而且还提供声音预处理和声学回声消除，为保障i p 网络中的语音通信质量提供了技术手段。此外， s p e e x 还具有压缩后的比特率低的特点，并支持多种比特率。这些特点使得s p e e x 特别适合v o i p 的系统【3 j 。 1 2 发展和研究现状语音编解码算法是v o l p 技术中非常重要的一项，编解码效率及质量的好坏直接决定了传输话音的质量。为了提供话质清晰、占用带宽小的语音编码算法，学者们投入了很多精力，事实上，在国际标准化工作中，语音编码是一个非常活跃的领域。从总体上看，语音编码技术的核心是要在尽可能低的码率和尽可能好的合成语音质量之间找到平衡点。目前，语音压缩编码算法大致可分为三类：波形编码、参数编码和混合编码。波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号，参量编码是基于人类语言的发音机理，找出表征语音的特征参量，对特征参量进行编码，混合编译码是结合波形编译码和参量编译码之间的优点。 2i n s t li n k 语音引擎的研究与实现 c e l p 属于混合编码的一种，是近1 0 年来最成功的语音编码算法。c e l p 语音编码算法用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。 s p e e x 选择c e l p 作为基本的编码技术。经多次验证，无论在低比特率还是高比特率情况下，c e l p 在编码和分级方面都表现出了优秀的特性。所以本文采用s p e e x 作为编解码算法1 4 1 。 s p e e x 库产生的主要原因是需要一个开源的并且无专利使用费的语音编解码器。这是s p e e x 可以应用于任何开源软件的重要条件。它是一套免费开源，无专利保护的音频压缩格式，主要针对语音。s p e e x 工程着力于通过提供一个可以替代高性能语音编解码来降低应用中语音输入的障碍。而且，s p e e x 也是很适合网络应用，这方面，相对于其它编解码器s p e e x 也有着自己独特的优势。s p e e x 还是g n u 工程的一部分，在改版的b s d 协议下得到了很好的支持【5 】。 s p e e x 编解码库的设计非常灵活，以支持广泛的语音质量和比特率。良好的语音质量支持意味着除了窄带语音( 电话质量，8 k h z 采样率) 外还可以对宽带语音( 电话质量，1 6 k h z 采样率) 进行编解码。 s p e e x 被设计用于v o l p 而不是移动电话，意味着s p e e x 对于丢包能够妥善处理，不会有损坏数据。【6 】这里基于一个假设：在v o i p 中，数据包要么不被改变的到达，要么不会到达。s p e e x 针对于大多数的设备，因此它拥有适中( 可调整) 的复杂性和较小内存占用。 s p e e x 的主要特性总结如下【l o 】开源的自由软件，免专利，免版权通过嵌入的比特流集成窄带和宽带可大范围改变比特率( b i t r a t e ) ( 从2 1 5 k b p s 到4 4 k b p s ) 动态比特率交换( a m r ) 和变比特率( v b r ) 操作静音检测( ，和变比特率( v b r ) 集成) 和非连续性传输( d t x ) 可变复杂度嵌入的宽带结构( 可变的比特率) 3 2 k h z 的超宽带采样率强立体声编码选项定点执行 1 3 论文的主要工作鉴于通信系统的应用需求，为其设计开发一个简便有针对性的多媒体通信语第一章绪论音引擎是本次工作的重点。本人负责语音引擎框架设计以及功能模块的实现。该引擎实现在i n s t l i n k 系统已有的系统架构下的一个比较简便的语音编解码系统。首先介绍了关于语音编解码的基础知识，在对c e l p 关键算法原理分析的基础上，透彻研究s p e e x 语音编解码算法原理、特点、编码模式及其架构与其性能特点，对语音预处理的技术和原始编解码器的逻辑细节进行了系统的分析。在此基础上，结合i n s t l i n k 多方通信系统，提出基于s p e e x 编解码技术的语音引擎方案，并在i n s t l i n k 系统上实现。实现单端语音和会议语音功能。 1 4 论文的内容安排本文主要分析了s p e e x 编解码算法的原理，解析原始代码的实现，提出了基于i n s t l i n k 系统，并继承原有语音相关功能的编解码系统。第一章介绍了基于i n s t l i n k 系统下的s p e e x 语音引擎实现的研究背景和意义，简单分析了现有s p e e x 的状态和发展，最后给出全文内容的结构安排。第二章首先简单介绍语音编解码技术。第三章简单分析c e l p 算法，详细分析s p e e x 编解码算法的原理、部件功能和特性等。第四章对于s p e e x 编解码算法之外的附加的能够优化s p e e x 编解码质量的预处理和其他适应性功能和必要技术作出一定的分析和介绍。第五章分析s p e e x 编解码器的原始代码逻辑结构。第六章结合s p e e x 编解码器的原始逻辑，提出基于i n s t l i n k 系统的语音引擎的设计，并详细介绍该语音引擎的工作原理。第七章总结本文的主要内容和贡献，并对以后做出展望。第二章语音编码技术基础第二章语音编码技术基础在讲到编码技术时，还是要回顾一下当今语音编码的技术基础。介绍算法的分类和评价算法优劣的标准。 2 1 语音编解码基础语音是语言的声学表现，是人们传达信息最自然、最有效以及最常用的途径，它可以传递情绪、态度以及其他个人化信息。在现代通信中，语音通信作为人们交流信息的主要手段扮演着愈来愈重要的角色。自然地，作为主要传播媒介的语音，它的分析及应用成为信息与信号处理领域的重要研究方向之一。目前，语音处理主要包括以下领域【1 9 1 ， ( 1 ) 语音编码 ( 2 ) 语音增强 ( 3 ) 语音修正 ( 4 ) 语音识别及说话人识别 ( 5 ) 语音合成因此，对语音以及语音模型进行深入、多角度分析研究，以取得语音特性并进行下一步处理具有十分重要的意义。语音编码是数字化语音传输和存储的基础技术，用压缩语音信号的数字表示而使表达这些信号所需的比特数最小。与模拟语音相比，使用语音编码技术的数字语音传输和存储系统，具有可靠性高、抗干扰能力强、便于快速交换、易于实现保密、复用、打包和价格低廉等优势。压缩后的语音用于传输，可以降低每路话音所需带宽，在同样的带宽内传输更多路的语音；用于存储，可以节约空间，提高存储语音长度，降低成本。如果将语音编码技术与网络合并成一个整体结构，可以减少通信成本，提高效率，有利于网络资源的管理。它在各种通信系统中占有重要地位。比如，在移动通信、卫星通信、军用通信和网络通信中，双方或者多方的话音传输、呼叫服务、多媒体查询等它都具有广泛应用。这些实际应用的需求推动了语音编码、特别是低比特率语音压缩编码理论与技术的发展。因此，研究人员多年来一直致力于在保持重构语音质量的前提下，提高语音压缩效率的研究。 6 i n s t l i n k 语音引擎的研究与实现 2 1 1 语音压缩编码的意义及作用从信息论的角度可以大致估计出语音信号压缩编码的极限速率。从语音的角度来看，语音中最基本的单位是音素，世界上语音的音素一般约为1 2 8 个 2 5 6 个，如果按通常的说话速度，每秒平均发出1 0 个音素。根据信息论的观点，此时的信息率为 i = l o g2 ( 2 5 6i 0 = 8 0 ( b s ) 、 l 厶l j 从语言的角度来看，把发音看成是以语音的速率来发报文。对英语来讲，每一个字母用7 b 编码，每分钟发1 2 5 个英语单字可以认为达到了通信语音速率。如果每个单字平均由7 个字母组成，则此时的信息率为 1 c ，= 7 7x 竺1 0 0 ( b s 1 6 0 。 ( 2 2 ) 因此。一般可以认为语音编码的极限速率为8 0b s - 1 0 0b s 。在此速率下，只能传送句子的内容，至于讲话者的音质、音调等重要信息已全部丢失。从标准的语音编码速率( p c m p u l s ec o d em o d u l a t i o n6 4 k b s ) 到语音编码的极限速率 ( 8 0 b s 1 0 0 b s ) 之间的压缩是6 4 0 倍，如此巨大的跨距对于理论研究和实践有着很大的吸引力。过去2 0 年里，高质量语音压缩编码技术大规模地走向实用化，各种国际标准的制定均集中反映了这种技术发展的水平和趋势，产生了许多语音编码标准。这些标准是根据应用背景，对编码质量、编码速率、编码延时、带宽以及算法复杂程度等进行综合权衡和最佳选择而制定的，以期在实际应用中获得最佳的效果。带宽3 0 0 - - 一3 4 0 0 h z 的窄带低速率语音编码，一直是人们研究的焦点。在4 k b p s 速率以上的语音编码已具备比较完善的理论和技术体系，并进入了实用阶段。尽管通信网络容量在不断增加，但低速率语音压缩编码一直是现在和未来应用所感兴趣的。目前语音编码的研究热点集中在4 k b p s 速率以下的编码算法，国际上的许多研究机构已把“4 k b p s 速率以下的语音压缩编码”作为未来几年的重点研究课题，因为这方面的研究有着广泛与强烈的应用背景。如移动电话系统、多媒体通信、语音信箱、i p ( i n t e m e tp h o n e ) 电话等都需要低速率语音压缩编码方面的关键技术。 2 1 2 低速率语音编码技术的发展现状随着现代通讯行业的蓬勃发展，特别是电话业务和移动电话的普及，互联网上语音业务的迅猛发展，语音压缩技术必将得到更为广泛的应用。虽然现在已经第二章语音编码技术基础 7 有光纤通信等容量比较大的通信手段，但节省带宽仍然重要。语音压缩主要的应用有【1 1 1 ： ( 1 ) 在各种重点考虑节省信道的通信应用中，例如无线移动通信、i p 电话、保密通信、军用特殊信道通信和高成本卫星通信、分组语音和数字租用信道等。 ( 2 ) 在存储设备容量不够大或是需要长时间记录大数据量的场合下，例如银行、汽车、飞机、轮船等处的语音记录设备。可以说，语音编码技术随着科技发展和其应用领域的拓宽，更体现出研究的价值和意义。主要原因，首先是语音编码技术日趋成熟，其次是社会对低速率语音编码的需要也促进了各种语音编码技术的竞争，使语音编码技术尽快走向成熟。1 6 k b p s 和8 k b p s 的技术已经标准化，具备比较完善的理论和技术体系并进入使用阶段，目前对4 k b p s 以下语音编码标准的竞争十分激烈，已经有不少地区性标准诞生。标准化组织的一些实体负责新的标准的确立，国际电信联盟( i t u ) 是联合国经济、科学、和文化组织( 切怔s c o ) 的一部分，由他们确定全球通信标准，最初，i t u 由c c i t t 和c c i r 组成，c c i t t 负责建立电信标准，c c i r 负责建立无线电标准。最早的数字语音编码标准，是由c c i t t 对于6 4 k b p s 脉冲调制( p c m ) 的建议，也即( 2 7 1 1 建议。由( 2 7 1 1 引入的量化失真单位，考虑为1 个失真单位( q d u ) 。第二个数字语音编码标准是3 2 k b p s 的a d p c m ，接着又制定了1 6 k b p s 的低延迟码激励线性预测( l dc e l p ) 的标准，它们的量化失真单位都是四个q d u 。1 9 9 4 年，由日本电报公司( n t t ) ，法国电信( c n e t ) 和s h e r b r o o k e 大学与a t & t 合作研究，产生了8 k b p s 语音编码器标准( 2 7 2 9 。地方性的标准很多，m o t o r o l a 公司提出了7 9 5 k b p s 的v s e l p 编码器标准i s 5 4 。日本无线系统研究和开发公司 ( r c r ) 提出了3 4 5 k b p s 的p s i c e l p 编码器，1 9 9 0 年由国际海事卫星组织 i n m a r s a t 提出了4 1 5 k b p s 的i m b e 编码器，美国防卫部门( d o d ) 提出了标准为f s l 0 1 5 的2 4 k b p s 的l p c 声码器。此后d o d 在1 9 8 8 年提出了标准为f s l 0 1 6 ，码率为4 8 k b p s c e l p 的编码器，f s l 0 1 6 比f s l 0 1 5 具有更高的语音自然度，但是仍然能感觉人工噪声【1 1 】。 2 1 3 语音编码的分类语音编码就是将模拟语音信号数字化，然后作为数字信号传输、存储或处理，可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节省带宽，还需要对数字化之后的语音信号进行压缩编码，这就是语音压缩编码技术。语音编码的目的，是在给定的编码速率下，使得从编码后恢复出的重构语音 8i n s t li n k 语音引擎的研究与实现的质量尽可能高。提高压缩效率的基本途径在于利用语音信号中的冗余度和人耳的听觉特性i l 2 。语音编码的算法大致分为波形编码、参数编码和混合编码三种，根据编码速率的高低也可以分为高速率、中速率和低速率编码【1 1 ： ( 1 ) 波形编码波形编码直接对语音采样信号进行量化，比特率较高，范围为1 6 6 4 k b i t s 。它力图保持重建波形与原始波形一致，优点是重建的语音质量高。脉冲调制编码( p c m ) 、自适应脉冲调制编码( a d p c m ) 、自适应预测编码( a p c ) 、子带编码( s b c ) 及自适应变换编码( a t c ) 等均属于这一种。若进一步降低比特率，则语音质量下降。 ( 2 ) 参数编码参数编码主要基于语音模型，利用语音特征参数进行量化和传输，其比特率在1 2 - 4 8 k b i t s 范围内。它认为语音可以表示为激励信号通过声道、口腔等生理模型滤波器而得到。这种方法极大地降低了比特率，但重建语音的波形与原始语音波形有较大差异，只能达到合成语音的质量( 即自然度、讲话者的可识别性都较差的语音)，并且当比特率提高到与波形编码相当时，语音质量也不如波形编码。在参数编码中，线性预测( l i n e a rp r e d i c a t e ，l p ) 模型是一种常用的分析方法。基于l p 的编码方式比如l p c 以及通道声码器、同态声码器、共振峰编码器和正弦变换编码器( s i n u s o i d a lt r a n s f e rc o d i n g ，s t c ) 等都属于参数编码。 ( 3 ) 混合编码混合编码是基于波形与语音模型的综合，同时具有波形编码和参数编码的优点。它利用感知加权最小均方误差的准则使编码器成为闭环优化的系统，从而在较低的比特率上( 4 k b i t s - 1 6 k b i t s ) 能获得较高的语音质量。码本激励线性预测编码( c o d ee x c i t e dl i n e a rp r e d i c a t i o n , c e l p ) 、代数c e l p ( a l g e b r a i cc e l p , a c e l p ) 、规则脉冲激励编码( r e g u l a rp u l s ee x c i t a t i o n ，r p e ) 等方法都属于混合编码。 2 1 4 语音编码器的性能衡量标准语音压缩编码研究的基本问题就是在一定编码速率下，如何用较低的复杂度和较小的延时得到尽量好的重建语音，由此可见，重建语音质量、编码速率、算法延迟、算法复杂度是衡量编码器性能的四个主要因素： ( 1 ) 重建语音质量。重建语音质量是衡量编码算法优劣的关键性能之一，它包括清晰度( 又称可懂度) 和自然度两个方面，前者是衡量语音中的字、词和句子的可懂程度，后者则是对讲话人的辨别。其评定方法可分为主观评定和客观评定。主观评价的测试比较符合人耳心理声学，有满意度测试( d i a g n o s t i ca c c e p t a b i l i t y 第二章语音编码技术基础 9 m e a s u r e ，d a m ) 和平均意见分( m e a no p i n i o ns c o r e ，m o s ) 等方法。最广泛为人们所接受的评价方法m o s 是把要测试的语音样本由一群听音测试者根据收听到的话音品质分为5 个等级t 通常得分在4 o 4 5 之间为高质量语音，符合长途通信要求；3 5 为可接受的通信质量，这时会感觉到语音质量有所下降，但并不妨碍正常的通信，一般的语音编码算法的m o s 分应该不低于3 o 分。具体如表2 1 所示。表2 1m o s 质量评分表评分质量级别描述 5优不察觉 4 良刚有察觉 3 中有察觉且有点讨厌 2差明显察觉且讨厌但可忍受 l 坏不可忍受 ( 2 ) 编码速率。编码速率是语音编码另一个非常重要的方面，一般用比特秒 ( 即b i t s 或b p s ) 来度量，代表了编码的总速率，其大小与采样频率和每个样点编码的位数有关，与重建语音质量相互矛盾，即编码速率越高，语音波形或参数量化就越精细，语音质量越好，但对传输带宽或存储容量的要求越高，相反，编码速率越低，对传输带宽或存储容量的要求越低，但语音质量越差。因此，一般在选择编码器时要对语音质量和编码速率两个重要因素进行折衷处理。 ( 3 ) 编解码复杂度代表了实现该语音编解码算法的软硬件代价。太高的复杂度可能会使该算法在现有的硬件条件下无法实时实现。当前随着硬件水平的迅速发展，编码算法的复杂程度也越来越高。 ( 4 ) 编码器延时。编解码延时一般用单次编解码所需的时间来表示。在数字语音通信系统中，语音编解码延时像线路传输延时一样对通信质量有很大影响。但不同的通信系统中对该项性能的要求不同，一般对于公众电话网要求单次语音编解码延时不超过5 1 0 m s ，而对于口电话、卫星通信等应用，对相应语音编码算法的延时要求则要低得多。以上四个因素密切联系，相互制约，在实际中应根据不同的应用场合侧重不同的因素，而其它因素可以适当放宽要求。第三章s p e e x 编码原理第三章s p e e x 编码原理由于s p e e x 是基于c e l p ( 码激励线性预测) ，所以先简要介绍一下c e l p 。是c o d ee x c i t e dl i n e a rp r e d i c t i o n 的缩写。c e l p 是近l o 年来最成功的语音编码算法。c e l p 语音编码算法用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。c e l p 已经被许多语音编码标准所采用。码激励线性预测c e l p ( c o d ee x i t e dl i n e a rp r e d i c t i o n ) 编码技术是一种有效的中低速率语音压缩编码技术，它以码本作为激励源，具有速率低、合成语音质量高、抗噪性强及多次音频转接性能良好等优点。在4 8 1 6 k b s 速率上得到广泛的应用。很多编码算法是基于c e l p 的，如，1 9 8 8 年，美国政府标准f e d s t d 1 0 1 6 ，语音编码器采用4 8 k b i t sc e l p 声码器。19 8 9 年，北美数字移动通信全速率语音编码器标准采用修改的8 k b i t s 速率的c e l p 编码，即矢量和激励线性预测编码 ( v e c t o rs u me x i t e dl i n e a rp r e d i c t i v ec o d i n g ，v s e l p ) 。19 91 年i e e e 通过了使用低延时码激励线性预测编码( l o w d e l a yc o d ee x i t e dl i n e a rp r e d i c t i v ec o d i n g l d c e l p ) 作为1 6 k b i t s 语音编码器的标准。1 9 9 2 年，c c i t tg 7 2 8 建议采用 l d c e l p 作为语音编码标准。1 9 9 5 年，i t u tg 7 2 9 建议采用一种基于c e l p 技术的共轭结构代数码激励线性预测( c s a c e l p ) 编码作为8 k b i t s 速率的语音编码标准。 c e l p 语音编码模型如图3 1 所示 1 2 i n s t li n k 语音引擎的研究与实现 ( a ) 缀码器 ( b ) 解码器图3 1c e l p 编解码原理框图 s p e e x 是基于c e l p 算法的多模式多速率语音编解码器，提供了窄带、宽带、超宽带三种语音编解码模式，分别对应频宽为4 k h z ( 采样率为8 0 0 0 ) 、8 k h z ( 采样率为1 6 0 0 0 ) 、1 6 k h z ( 采样率为3 2 0 0 0 ) 的语音信号。其中窄带语音编码仅用窄带子模式编码；宽带语音由正交镜像滤波器分解为两个子带：高带语音为宽带子模式编码，低带语音为窄带子模式编码；超宽带将重复两次分解，采用两次宽带子模式编码和一次窄带子模式编码。可见整个s p e e x 算法由两个的子模式编码组成：窄带子模式( 又分为8 个基本子模式) ，和宽带子模式( 4 个基本子模式) 。 ( 基本子模式才是编码的最小基本单元，由它确定独立的编码参数，至于基本子模式的选择与编码质量参数有关) 如图3 2 所示：第三章s p e e x 编码原理图3 2s p e e x 编码模式分解示意图 s p e e x 编解码相关概念： ( 1 ) 取样率 s p e e x 主要是为三种不同的取样率设计的：8 k h z 、1 6 k h z 和3 2 k h z 。 ( 2 ) 话音质量参数 s p e e x 编码大多数情况下是受介于0 1 0 的质量参数控制的。 ( 3 ) 复杂度这个参数决定的时计算时的精细度，一般固定为3 就开以了。 ( 4 ) 可变比特率( v b r ) 表示编码速率可变，就是压缩效果可变。 ( 5 ) 平均比特率( a b r ) 表示的是编码压缩后数据的平均速率，主要为了控制上限。 ( 6 ) 话音活动性检n ( v a d ) 检测是否有语音信号。 ( 7 ) 感觉加强使用后会改善解码后产生的噪声。 1 4i n s t l i n k 语音引擎的研究与实现 3 1 语音编码模式选择 s p e e x 编解码器根据信号的频域范围( 等同与采样率，采样率：2 宰最大频率) ，将信号分为窄带、宽带、超宽带。对应的模式自然也有窄带、宽带、超宽带三种。 3 1 1 窄带当原始编码信号的频域范围为4 k h z ( 采样率为8 0 0 0 ) 时采用s p e e x 窄带编码模式。同时s p e e x 窄带编码模式只采用窄带子模式。 s p e e x 编码帧长固定为2 0 m s ，而此时信号采样率为8 0 0 0 ，因此帧长为1 6 0 个样点。 3 1 2 宽带当原始编码信号的频域范围为8 k h z ( 采样率为1 6 0 0 0 ) 时采用s p e e x 宽带编码模式。 s p e e x 编码帧长固定为2 0 m s ，而此时信号采样率为16 0 0 0 ，因此帧长为3 2 0 个样点。该模式下，信号被分为两个子带( s b c e l p ) ：低带使用窄带子模式，高带使用宽带子模式。而高带信息在低带信息编完后，再编码，所以在编码完的信息中去掉宽带部分的剩下一部分就是一个有效的窄带帧，宽带解码器可以识别一个高带信息的消失，因此可以解码一个窄带帧。分解的方法是首先将宽带信号分为0 - 4 k h z ，4 8 k h z 两个子带，使用带通滤波器实现分带工作。s p e e x 使用的带通滤波器为正交镜像滤波器组( q m f b ) ，如图 3 3 所示，输入的语音信号x 【n 】为全带离散信号。x 【n 】通过等带宽的低通滤波器 h l ( z ) 、高通滤波器i q 2 ( z ) 滤波得到两个子带信号：低带信号x l n 、高带信号x 2 【n 】；再分别对这两个信号进行2 ：l 抽取可得到输出信号y l n 、y 2 n 。反过程刚好相反，首先1 ：2 内插，在分别低通、高通滤波，再将结果相加即可得到恢复的信号s 【n 】图3 3 宽带编码模式下子带划分第三章s p e e x 编码原理1 5 由于在划分过程中做了2 ：l 的抽取，因此最后编码帧中也只剩下1 6 0 个样点。如下图3 4 所示，就是整体的带有子带划分的编解码器的工作过程原始语音码叫醵剧船l 漉分解一惭面h 司一恐l 3 1 3 超宽带图3 4s p e e x 编解码器宽带模式下的工作过程台威话音当原始编码信号的频域范围为1 6 k h z ( 采用率为3 2 0 0 0 ) 时采用s p e e x 超宽带编码模式。该模式下，重复两次分解采用两次宽带子模式编码和一次窄带子模式编码。 3 2 算法细节下面具体说明窄带子模式和宽带子模式的编解码细节。 3 2 1 窄带子模式 3 2 1 1 编码不论是被窄带编码模式使用还是被宽带编码模式使用，最后编码帧均为1 6 0 个样点( 前面已述) ，这里叫这1 6 0 个样点为“分析帧”。 s p e e x 先对分析帧进行一个全帧的开环分析，如图3 5 所示，对语音进行l p c 分析得到l p c 系数呶，构建滤波器j b 。l p c 系数被转化为l s p 系数，接着 1 6i n s t l i n k 语音引擎的研究与实现 l s p 系数进行量化，同时计算全局的激励增益g 伽，并量化为季胁，在s p e e x 中，只有这两个参数是在整个分析帧上进行编码的。( 这里计算这个l p c ，使用了当前帧的数据与前一帧的部分数据；转化为l s p 的原因是l s p 在量化时更具有鲁棒性) 语图3 5s p e c x 窄带子模式全帧开环分析完成了全帧的开环分析后，需要对分析帧做跟深入的编码分析。s p e e x 将分析帧等分为四个子帧，对每个子帧执行一个完整的c e l p 编码如图3 6 所示。每个子帧的l s p 系数由当前帧全帧分析所得到的l s p 系数与前一帧的l s p 系数按式( 3 1 ) 插值得到，将得到的l s p 系数量化后转回l p c 参数( 己量化) ，这些参数构成各自c e l p 编码时的l p c 滤波器么( z ) 。 = ( 卜三) z l + 无 k = 1 , 2 、3 、4 ( 3 1 ) |t ( 在对l s p 进行量化的时，高质量用3 0 b i t ，低质量用1 8 b i t 。量化采用多段分裂矢量量化。在低质量时，1 0 个l s p 系数先用6 b i t 进行矢量量化，再将量化误差分为两个5 维的子矢量，每个子矢量再用6 b i t 量化，共计1 8 b i t 高质量量化时，对两个子矢量的量化误差再分别用6 b i t 量化，共计3 0 b i t 。一全帧、子帧均是这样) 第三章s p e e x 编码原理1 7 图3 6s p e e x 窄带子模式子帧闭环分析上述的子帧的闭环分析过程可以分为以下几个部分： ( 1 ) 首先对输入的子帧语音信号去除其零激励响应部分。 ( 2 ) 然后求得残差，并在残差上执行基音检测。基音检测由自适应码书生成，使用3 阶基因预测，得到子帧基音与子帧基音增益( 自适应码矢和自适应码矢的增益) 。 ( 3 ) 求解子帧增益修正参数g 嘶并且量化得季，谢。 ( 4 ) 将量化后的子帧修正增益参数蚕一和量化后的全局激励增益参数参 o s u b fof r a m e 联合产生固定码书的增益参数= ，进入固定码书搜索，得到固定码矢。 99 6 y r a m e6 叫最终，生成的编码数据有全帧的量化l s p 系数、全帧激励增益参数蚕、 j | r e 各子矢量的自适应码书的码矢和增益参数、各子帧的固定码书的码矢和子帧修正 1 8i n s t l i n k 语音引擎的研究与实现增益参数蚕，对于一个分析帧来讲后面的子帧的4 块参数有4 份。 j 蜀比d ， 3 2 1 2 解码和2 2 1 1 小节所述的编码部分一样，s p e e x 窄带子模式也牵涉到分析帧与子帧的参数混合使用，它们分别在分析帧的范畴和子帧的范畴使用。如图3 7 所示即为其工作结构图图3 7s p e e x 窄带子模式解码器结构框图解码流程： ( 1 ) 从码流中分解出固定码书矢量、子帧激励增益，同全局激励增益一起共同计算固定码书贡献。 ( 2 ) 从码流分解出自适应码书矢量，与基音增益一起共同计算自适应码书的贡献。和固定码书贡献共同构建成为子帧激励信号。 ( 3 ) s p e e x 中提供了一个可选的优化选项，即将所得到的子帧激励信号进行 l p c 增强滤波。l p c 增强滤波器所使用的l p c 系数为上一分析帧所求解的到的 l p c 系数，而不是本帧的l p c 系数。 ( 4 ) 将前一分析帧的l s p 系数和本分析帧的l s p 系数按式( 2 1 ) 进行内插，再将内插得到的l s p 系数转化为l p c 系数，计算由该组l p c 系数所构成的l p c 合成滤波器。 ( 5 ) 将通过l p c 增强滤波的子帧激励通过l p c 合成滤波器滤波，再通过高通滤波器滤波，则完成了一个子帧的解码流程。 ( 其他子帧解码重复此过程) 第三章s p e e x 编码原理 1 9 3 2 2 宽带子模式 s p e e x 宽带子模式主要完成对高带信号( 4 8 k h z ) 的编码，同样采用了c e l p 编码算法，和窄带子模式非常相似，但是稍有不同。在宽带子模式的编码中，不进行基音预测，仅完成固定码书搜索部分。这主要是因为4 k h z 以上的语音信号谐波信号很少，同时4 8 k h z 信号经过镜像滤波器对折以后为4 0 k h z ，谐波不再是基音的整数倍。这里的固定码书搜索和窄带子模式中完全相同，此处不再赘述。这里需要说明的是，l p c 系数转化为l s p 系数进行量化，为了使用更少的编码位来表示，采用的是多级矢量量化( m s v q ) ，即首先对l s p 参数进行矢量量化，采用6 b i t s 表示，在对量化误差进行二次矢量量化，同样采用6 b i t s 表示。共1 2 b i t 。 3 3 基本子模式解析 s p e e x 窄带子模式有8 个基本子模式，s p e e x 宽带子模式有4 个基本子模式。 ( 还有一个0 模式，表示无话音时的模式) 用时选择一个。质量参数控制决定这些基本子模式的选择，如不给定质量参数，则使用默认的基本子模式。如表3 1 、3 2 、3 3 所示，质量参数决定了基本子模式的选择。表3 1s p e e x 窄带语音编码时的质量参数决定基本子模式窄带子模式质量等级编码位率k b p s 基本子模式编号编码帧( 包) 长 ol4 32

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）instilink语音引擎的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档