硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf_第1页
硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf_第2页
硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf_第3页
硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf_第4页
硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf_第5页
免费预览已结束,剩余56页可下载查看

硕士学位论文-基于FPGA的低速率语音声码器的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安电子科技大学 硕士学位论文 基于fpga的低速率语音声码器的研究与实现 姓名:时永鹏 申请学位级别:硕士 专业:计算机应用技术 指导教师:裘雪红 20080401 摘要 数字语音通信是当前信息产业中发展最快、普及面最广的业务。语音信号压 缩编码是数字语音信号处理的一个方面,它和通信领域联系最为密切。在现有的 语音编码中,美国联邦标准混合激励线性预测( m e l p m i x e de x c i t e dl i n e a r p r e d i c t i o n ) 算法在2 4 k b s 的码率下取得了较好的语音质量,具有广阔的应用前 景。 f p g a 作为一种快速、高效的硬件平台在数字信号处理和通信领域具有着独 特的优势。现代大容量、高速度的f p g a 一般都内嵌有可配置的高速r a m 、p l l 、 l v d s 、l v t t l 以及硬件乘法累加器等d s p 模块。用f p g a 来实现数字信号处理 可以很好地解决并行性和速度问题,而且其灵活的可配置特性,使得f p g a 构成 的d s p 系统非常易于修改、测试及硬件升级。 本论文阐述了一种基于f p g a 的混合激励线性预测声码器的研究与设计。首 先介绍了语音编码研究的发展状况以及低速率语音编码研究的意义,接着在对 m e l p 算法进行深入分析的基础上,提出了利用d s pb u i l d e r 在m a t l a b 中建模的 思路及实现过程,最后本文把重点放在m e l p 声码器的编解码器设计上,利用 d s p b u i l d e r 、q u a r t u s1 1 分别设计了其中的滤波器、分帧加窗处理、线性预测分析 等关键模块。 在s i m u l i n k 环境下运用s i g n a l c o m p i l e r 对编解码系统进行功能仿真,为了便 于仿真,系统中没有设计的模块在s i m u l i n k 中用数学模型代替,仿真结果表明, 合成语音信号与原始信号很好的拟合,系统编解码后语音质量基本良好。 关键词:m e l pf p g a 语音编解码d s pb u i l d e r a b s t r a c t d i g i t a ls p e e c hc o m m u n i c a t i o ni st h ef a s t e s t 铲o w m ga n d t h em o s tw i d e l y p o p u l a r b u s i n e s si nt h ec u r r e n ti n f o r m a t i o ni n d u s t r y a so n ed i r e c t i o no ft h ed i g i t a ls p e e c h s i g n a lp r o c e s s i n g ,c o m p r e s s i o na n dc o d i n go ft h es p e e c hs i g n a la r em o s tc l o s e l y a s s o c i a t e d 、 ,i n lt h ec o m m u n i c a t i o n sa r e a s i nt h ee x i s t i n gs p e e c hc o d i n g ,t h em i x e d e x c i t e dl i n e a rp r e d i c t i o n ( m e l p ) a l g o r i t h mi nt h e2 4k b sb i tr a t eo ft h eu n i t e d s t a t e sf e d e r a ls t a n d a r d sh a sa c h i e v e db e t t e rv o i c eq u a l i t ya n dh a sb r o a da p p l i c a t i o n p r o s p e c t s a saf a s ta n de f f i c i e n th a r d w a r ep l a t f o r m ,f p g ah a st h eu n i q u ea d v a n t a g ei n d i g i t a ls i g n a lp r o c e s s i n ga n dc o m m u n i c a t i o n s m o d e ml a r g e c a p a c i t y , h i g l l s p e e d f p g ah a sb e e ne m b e d d e di nd s pm o d u l es u c ha sh i g l ls p e e da n dr e c o n f i g u r a b l er a m , p l l ,l v d s ,l v t t l ,a n dh a r d w a r em u l t i p l i c a t i o na c c u m u l a t o r , e t c u s i n gf p g a t o a c h i e v ed i g i t a ls i g n a lp r o c e s s i n gc a ns o l v ep a r a l l e la n ds p e e d ,a n dt h ed s ps y s t e m b a s e do nf p g ab e c o m e sv e r ye a s yt om o d i f y , t e s ta n du p g r a d eh a r d w a r ef o ri t s f l e x i b l yr e c o n f i g u r a t i o n t h er e s e a r c ha n dd e s i g no ft h em i x e de x c i t e dl i n e a rp r e d i c t i o nv o c o d ef p g a b a s e di se x p a t i a t e di nt h i sa r t i c l e f i r s t l y , i ti n t r o d u c e st h ed e v e l o p m e n to fs p e e c h c o d i n g ,a l o n gw i t ht h es i g n i f i c a n c eo ft h el o wb i tr a t es p e e c hc o d i n g t h e nt h ei d e ao f m o d e l i n ga n dr e a l i z a t i o np r o c e s sb yu s i n gd s p b u i l d e ri nm a t l a bi sp r o p o s e d f i n a l l y , i te m p h a s i z e st h ed e s i g np r o c e s so fm e l pv o c o d e r w ec a nw o r ko u tt h ek e ym o d u l e s u c ha sf i l t e r , d i v i d ef r a n l ea n da d d i n gw i n d o w , a n dl i n e a rp r e d i c t i o na n a l y s i sb yu s i n g d s pb u i l d e ra n dq u a r t u si is o f t w a r e t h e nw ec a l lt a k ed s pb u i l d e rt oc o m p l e t et h ef u n c t i o ns i m u l a t i o no ft h e e n c o d i n ga n dd e c o d i n gs y s t e mu n d e rt h ec i r c u m s t a n c eo f s i m u l i n k w es u b s t i t u t et h e u n d e s i n g e dp a r to ft h ev o c o d e rs y s t e mw i t ht h em a t hm o d e li ns i m u l i n k ,t os i m u l a t e e a s i l y t h es i m u l a t i o nr e s u l ts h o w s t h a tt h es y n t h e t i c a ls i g n a l sf i tw e l lw i t ht h eo r i g i n a l o n e s ,a n dt h eq 砌i t yo ft h es p e e c hg o tf r o mt h ev o c o d e ri sg o o d k e y w o r d :m e l p f p g as p e e c he n c o d ea n dd e c o d ed s pb u i l d e r 西安电子科技大学 学位论文创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学 或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:础边 日期迎兰:! :至 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论 文在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名:丝堑塑鱼 导师签名:二吝纽 同期型望坌:笪:! 第一章绪论 第一章绪论 1 1 引言 语音不仅是人与人之间进行信息交流最直接、最方便和最有效的工具,而且 也是人与机器之间进行通信的重要工具。无论是人与人之间还是人与计算机之间 的语音通信,语音信号处理,特别是语音信号数字处理的理论和技术,都具有特 别重要的作用。数字语音处理包含三方面的内容:语音信号的数字表示方法,语 音信号数字处理的各种方法和技术,以及数字语音处理理论和技术在各领域中的 实际应用【l j 。这些内容涉及到数字信号处理、计算机科学、模式识别、语音学、心 理学等学科,还涉及到通信和电子系统、信号和信息处理系统等具体应用领域。 数字语音通信是目前电信网络中最重要和最普通的业务,随着现代通信网的 传输量的越来越大,带宽资源也变得愈加宝贵,为了降低传输或存储的费用,就 必须对要传输的语音信号进行压缩。于是压缩语音信号的传输带宽或降低通信信 道的传输码率,便成为人们追求的目标【2 】,而语音编码,特别是低速率语音编码在 实现这一目标的过程中担当者重要的角色。 语音编码就是压缩语音信号的数字表示而使表达这些信号所需的比特数最小 的算法。随着人们对多媒体通信要求的日益提高,媒体压缩技术迅速发展。语音 压缩技术也处于不断发展中,实用系统的最低压缩速率已经达到2 4 k b s 甚至更低, 在大大节省信道带宽的同时还保证了通话质量。 现代数字系统设计上,大容量、高速度的f p g a 及其相关的开发技术,在可 重配置的d s p 应用领域、d s p 数据大吞吐量和数据的纯硬件处理方面,有独特的 优势。新的基于f p g a 的d s p 系统级开发工具以完整的软件开发平台,使得设计 者能采用自顶向下的开发方法进行f p g a 的d s p 设计【3 1 。f p g a 具有全硬件的用 户可定制性以及重配置性,即可根据需要随时通过改变f p g a 中构成d s p 系统的 硬件结构来改变系统的功能、技术指标、通信方式、硬件加密算法、编解码方式 等等。 1 2 语音编码技术概述 语音编码目前主要分为三类,即波形编码、参数编码和混合编码。 波形编码主要采用取样和量化的方法将模拟语音信号转换成数字语音信号, 2 基于f p g a 的低速率语音声码器的研究与实现 使重建语音波形与原始波形尽量保持一致。这种压缩编码具有适应能力强、通话 质量好、算法简单等优点,但它所需要的比特率高,通常能在1 6 - - - 6 4 k b p s 的速率上 给出高的编码质量,当速率进一步降低时,其性能会迅速下降1 4 】。 参数编码又称声源编码,其基础是把语音信号看成是某个模型在一定激励作 用下产生的输出,而激励源和模型参数便作为语音信号的表示。具体说,参数编 码是以人体发音机制模型作为基础,用一套模拟声道频谱特性的滤波器系数和若 干声源参数来描述这个模型,将通过语音线性分析后得到的特征参数编码进行传 输。比如线性预测编码( l p c l i n e a rp r e d i c t i o nc o d i n g ) 及其各种改进型都属于参 数编码。这种编码方式的比特率可到2 4 k b s - - 4 8 k b s ,甚至更低【5 】。参数编码是通 过声码器实现的,实际上相当于一种语音分析合成系统,能够将分析和合成集合 起来,主要用于窄带信道的语音通信中。声码器有其自身的缺点,即重建语音的 自然度、可懂度差,语音质量差,较少保留说话人的特征,受噪声和码率的影响 很大,算法复杂。 近年来人们在l p c 研究的基础上对1 6 k b s 以下的高质量语音编码技术进行了 广泛的研究,发现混合编码能很好地解决波形编码和参数编码两者的缺点,它将 波形编码和参数编码结合起来,尽量保留两者的优点。在混合编码中,数字语音 信号中既包括若干语音特征参数又包括部分波形编码信息。混合编码将编码速率 压缩到4 8 k b s ,在8 1 6 k b s 范围内能达到良好的话音质量。多脉冲激励线性预测 编码( m p e l p c ) 、码激励线性预测编码( c e l p c ) 以及规则脉冲激励线性预测编 码( i 冲e l p c ) 等都属于此类声码器。 随着军事通信、移动通信和因特网的飞速发展,语音通信技术也在不断地进 行更新并与之融合。语音编码作为数字语音通信过程中的重要组成部分,总体上 有三个大的发展方向:低速率语音编码、变速率语音编码和不压缩语音编码。 低速率语音编码是未来语音编码的主要发展方向,这是因为在现代通信中, 信道利用的有效性和经济性仍是研究的重要目标,低速率语音编码技术是语音通 信中不可缺少的一个重要研究方向嘲。随着数字通信业务的发展,高质量的低速率 语音编码技术将成为研究的热点,它必将在保密通信、语音邮件、网络通信、i p 电话等领域有广泛的应用前景。 1 3 混合激励线性预测编码 近十年来,语音编码技术取得了突飞猛进的发展,就语音编码的现状而言, 1 6 k b s 和8 k b s 的技术已经标准化和产品化,具备了比较完善的理论和技术体系, 并已经进入实用阶段。而今后重要的研究焦点将逐步转向更低的码率,譬如2 4 k b s 第一章绪论 3 或者1 2 k b s 声码器。近年来,国内外在开展4 k b s 及以下速率的语音编码的研究 方面,主要代表算法有四个:多带激励编码( m b e m u l t i b a n de x c i t a t i o nc o d i n g ) 、 正弦变换编码( s t c s i n u s o i d a lt r a n s f o r n lc o d i n g ) 、波形内插( w i c w a v e f o r l t l i n t e r p o l a t i o n ) 编码和混合激励线性预测( m e l p m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ) 编码。 1 9 9 6 年3 月,美国国防部语音信号数字处理协会( d d v p c ) 决定选用t i ( t e x 弱 i n s t u m e n t s ) 公司推出的混合激励线性预测( l p ) 声码器来取代1 日标准f s 1 0 1 5 , 1 9 9 7 年3 月,这个m e l p 声码器算法被最终确定为新的2 4 k b s 联邦标准并被公布, 以替换原有的联邦标准l p c 1 0 声码器。 m e l p 声码器在传统的二元激励线性预测模型的基础上作了改进,吸收了多带 激励( m b e ) 、l p 1 0 e 等算法的一些思想,并采用了许多新的措施,如改进了基音 提取算法,引入了非周期和傅立叶级数幅度值来合成激励信号等,使得在2 4 k b s 速率上能够得到高质量的合成语音,也就是使合成语音能更好地拟合自然语音1 7 j 。 m e l p 声码器算法从时域和频域两个方面对语音信号进行了考虑,吸收了许多 算法的优点,又采用了许多新的方法,使得在时频域对语音信号的刻画更加细致, 它在2 4 k b s 的低速率语音编码上提供了相当好的合成语音质量,同时还提供了完 善的抗误码纠错。在信道资源十分紧张的今天,m e l p 声码器必将成为移动通信、 卫星通信等领域中极具竞争力的语音编码方案。 1 4 本课题研究的意义 m e l p 编码作为一种低速率数字语音编码方法,在语音通信领域有着广阔的应 用前景。近年来,国内外关于m e l p 算法研究的论文越来越多,算法中的关键技 术被逐渐解决并不断得到改进和优化,m e l p 算法日益成熟和完善,而关于m e l p 算法具体实现的报道却不是很多。虽然近2 0 年来,由于数字信号处理算法和d s p 器件的飞速发展,为语音编码的实现和应用奠定了基础,但是m e l p 算法复杂度 较高,因此实时实现必须借助高性能的数字信号处理芯片,在以d s p 处理器为核 心的d s p 应用系统上实现。目前国内外用d s p 实现编码算法大多有两种,一是采 用通用数字信号处理器,二是设计面向d s p 的语音编码专用a s i c 芯片瞵j ,目前这 两个方向都取得了不错的进展,为低速率语音编码的实时实现提供了有利条件。 m e l p 语音压缩算法虽然能够在以d s p 处理器为核心器件的应用系统上实现, 但开发以d s p 处理器为核心的d s p 应用系统所采用的开发方法是自底向上的设计 流程,严重影响开发的效率和成功率。面对现代通信技术的发展,d s p 处理器已 暴露出硬件结构的不可变性、处理速度比较慢等不足。面向d s p 的各类专用a s i c 4 基于f p g a 的低速率语音声码器的研究与实现 芯片虽然可以解决并行性和速度的问题,但是高昂的开发设计费用、耗时的设计 周期及不灵活的纯硬件结构,使得d s p 的a s i c 解决方案日益失去其实用性。 随着可编程器件的飞速发展,成百上千万门的可编程芯片内部集成了各种数 字信号处理单元,如硬件乘法器、累加器等。而且各大可编程器件厂商提供各种 运算处理的i p 核,使一些复杂的设计变得非常简单。这些可编程器件中,发展最 快、应用最广的就是f p g a 。 本课题研究的基于f p g a 的嵌入式语音声码器系统,由脱离硬件的系统级开 始设计,优势是直观、快捷、高效、灵活、易于排错与及时修改,非常有利于对 复杂系统的构建、测试及可行性判断,及时更改设计方案,同时也有利于系统的 模块化构建、模块化测试和模块化重利用,是高效率低风险设计的有效解决方案。 1 5 本文主要研究工作 本文分析了m e l p 编码的语音模型及声码器算法,论述了f p g a 应用的领域 及扩展,以及a l t e r a 公司的f p g a 的特点,并介绍了设计混合激励线性预测声码 器的以a l t e r a 公司的d s pb u i l d e r 和c y c l o n e 系列f p g a 为核心的软硬件平台, 研究了基于f p g a 的m e l p 声码器的设计。 本论文共分五章,安排如下: 第一章:绪论。介绍了语音编码技术、低速率语音编码、本文研究的意义及 本文的主要研究工作。 第二章:介绍了语音编码的关键技术,对低速率语音编码的发展和算法体系 做了概述。 第三章:详细研究了美国联邦标准2 4 k b sm e l p 声码器的编解码原理。深入 讨论了每个参数的提取和解码过程,对其中的重要步骤进行了推算。 第四章:进行基于f p g a 的m e l p 声码器设计,在s i m u l i n k 环境下用d s p b u i l d e r 结合q u a r t u si i 对m e l p 声码器的关键模块进行设计和特性分析,并在最 后对所设计的系统进行综合和仿真。 最后对本文研究工作进行总结和展望。 第二章低速率语音编码概述 5 第二章低速率语音编码概述 语音压缩编码的发展,一直是在用尽可能低的速率获得尽可能好的合成语音 质量的矛盾中发展的。而语音压缩编码的意义在于去除语音信息中的冗余度,降 低传输比特率或减少存储空间。这就要求对原始语音信号进行运算处理,当然压 缩比特率越大,其运算复杂度也就越大。然而,语音通信往往要求实时进行,因 此,这些运算必须在很短的时间内完成。2 0 世纪8 0 年代以后,随着超大规模集 成电路技术的飞速发展以及高速数字信号处理( d s p ) 芯片的产生、可编程逻辑 器件的飞速发展,使语音编码算法的实时处理成为了可能。也正是依托于高速的 硬件基础,语音编码,特别是低速率语音编码技术才能得到进一步的发展与应用。 2 1 语音编码关键技术 2 1 1 语音信号产生的数学模型 语音信号产生的数学模型就是用数字处理方法来实现对发声器官这种物理系 统的模拟,由此可估计出语音波形的参数。因此,这种数学模型也是语音参数模 型。语音分析都是基于语音信号数学模型的,它可以看成是线性时不变系统( 声 道) 在随机噪声或准周期脉冲序列激励下的输出。该模型是数字语音信号处理的 基础,它可以用三个子模型:激励模型、声道模型和辐射模型的级联来表示,其 转移函数为【9 】: 日( z ) = u ( z ) 矿( z ) r ( z ) ( 2 - 1 ) 其中,是激励信号一声门脉冲,是声道传递函数,r 是嘴唇的辐射效应。 语音信号产生的数学模型如图2 1 所示。 基音频率 图2 1 语音信号的产生的数学模型 6 基于f p g a 的低速率语音声码器的研究与实现 2 1 2 语音编码通用模型 现代通信的重要标志就是实现数字化,而要实现数字化首先得把模拟信号转 变为数字信号,同时为了提高语音信号数字传输的有效性,通常还要对数字语音 信号进行压缩,这种将模拟信号变为数字语音信号再进行压缩编码的过程就是语 编码。 根据语音编码的概念,可以建立语音编码的通用模型【1 0 1 ,如图2 2 所示。 警 恒卜巨h 夏廿嚣 图2 2 语音编码通用模型图 目前,国际上通用的语音编码指的是将输入信号为8 k h z 采样、1 6 b i t s 量化的 线性p c m 数字语音信号压缩成速率更低的二进制码流的过程;而译码指的是编 码的相反过程,即将编码后的二进制码流还原为8 k h z 采样、1 6 b i t s 量化的线性 p c m 数字语音信号的过程,然后利用软件即可播放译码后的数字语音信号。 2 1 3 线性预测技术 线性预测( l p ) 是一种很重要的技术,几乎普遍地应用于语音信号处理的各 个方面,语音编码算法也基本上都用到了这一技术。 线性预测的基本思想是:由于语音样点之间存在相关性,所以可以用过去的 样点值来预测现在或未来的样点值,即一个语音的采样能够用过去若干个语音采 样或它们的线性组合来逼近。通过使实际语音采样和线性预测采样之间的误差在 某个准则下达到最小值来决定唯一的一组预测系数。 线性预测分析是在语音信号数学模型的基础上进行的,即用过去p 个样本值 的线性组合来预测现在或未来的样本值: ;( 刀) = q s o f ) u 吃, 百 式中:啦称为线性预测系数( l p ) ;p 使预测阶数。 线性预测的基本问题是由语音信号直接决定一组预测系数a i ( 卢1 ,2 ,猡) , 使得l p 误差p ( 疗) = j ( 疗) 一i ( 刀) 在某个预定的准则下最小。这个准则通常采用最小 均方差准则i l ,即令 e = p ? ( 疗) = i s ( n ) 一;( 万) 】2 = 阶) 一艺a i $ ( 力一i ) 】2 ( 2 - 3 ) 打 一刀i - - i 最小,而且在最小的条件下,求出相应的预测系数。 第二章低速率语音编码概述 2 1 4 语音编码的性能评价方法 语音编码的根本目标就是在尽可能低的编码速率条件下,重建得到尽可能高 的合成语音质量,同时还应尽量减小编解码延时和算法复杂度。因此,编码速率、 合成语音质量、编解码延时以及算法复杂度这4 个因素自然就成了评价一个语音 编码算法性能的基本指标f 1 2 1 。 1 、编码速率:又称比特率,它是指一个编码器的信息速率。在语音通信系统 中,它决定了编码器工作时占用的信道带宽。编码速率直接反应了语音编码对语 音信息的压缩程度。 2 、合成语音质量:评价语音编码性能的最根本标准。目前国际上流行的评估 方法称为m o s ( m e a no p i n i o ns c o r e ) 方法,它是由原来c c i t t 建议采用的平均 评价得分方法,可分为五级: 5 分表示质量完美( e x c e l l e n t ) 4 分表示高质量( g o o d ) 3 分表示质量尚可( f a i r ) 2 分表示质量差( p o o r ) 1 分表示质量不能接受( b a d ) 3 、编解码延时:一般用单次编解码需要时间来表示。在实时语音通信系统中, 语音编解码延时同线路传输延时的作用一样,对系统的通信质量有很大的影响。 过长的语音延时会使通信双方产生交谈困难,而且会产生明显的回声而干扰人的 正常思维。因此在实时语音通信系统中,必须对语音编解码算法的编解码延时提 出一定的要求。对于公用电话网,编解码延时通常要求不超过5 m s 1 0 m s ,对于 移动蜂窝通信系统,允许最大延时不超过lo o m s 。 4 、算法复杂度:包括两个方面,运算复杂度和内存要求,它主要影响到语音 编解码器的硬件实现,也决定了硬件实现的复杂程度、体积、功耗以及成本等。 对于一些复杂的语音编码算法,运算复杂度一般用处理每一秒信号样本所需的数 字信号处理( d s p ) 指令条数来衡量其计算复杂度,可用单位“兆次操作s ”( 兆次 s ) 或“兆条指令s ( 兆指令s ) 等来对运算复杂度进行描述。内存则用单位“字节 ( b ) ”来衡量。 2 2 低速率语音编码技术 2 2 1 低速率语音编码的发展 语音压缩编码,按编码后传输所需的数据速率来分,可以分为高速率( 3 2 k b p s 8 基于f p g a 的低速率语音声码器的研究与实现 以上) 、中高速率( 1 6 - 3 2 k b p s ) 、中速率( 4 8 1 6 k b p s ) 、低速率( 1 2 - 4 8 k b p s ) 和极低速率( 1 2 k b p s 以下) 五大类。 2 0 世纪3 0 年代末,由于保密通信的需要,贝尔实验室的h o m e rd u d l e y 提出 了实现在低带宽电话电报电缆上传输话音信号的通道声码器,成为语音编码技术 的鼻祖。此后,由于带宽和传输干扰问题急待解决,推动了数字通信网的发展, 同时也推动了低速率语音编码技术的迅速发展。 由于窄带信道通信的要求以及对语音信号的高效存储,促使语音编码技术向 着低速率发展,同时向着高可懂度和自然度的方向发展。在低速率语音编码技术 的不断发展过程中,实用系统的最低压缩速率已经达到2 4 k b p s 甚至更低,在大 大节省信道带宽的同时还保证了话音质量。低速率语音编码技术是现代语音通信 的基础,已经在信道扩容、保密通信、个人移动通信和多媒体通信等领域得到了 广泛应用。随着通信方式的不断更新和扩展,低速率语音编码技术显得尤为重要, 未来将有着广泛的发展与应用前景。 2 2 2 低速率语音编码的算法体制 现代低速率语音编码算法体制主要沿着4 个方向发展,即码激励线性预测模 型、正弦激励模型、插值编码模型和混合激励线性预测模型。一般低速率语音编 码算法都是在这4 种模型的基础上进行演化和改进的。 1 、码激励线性预测模型 1 9 8 5 年,m a n f r e dr 。s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首先 提出了用码本作为激励源的码激励线性预测( c e l p ) 编码技术【1 3 】。c e l p 以高质 量的合成语音及优良的抗噪声和多次转接性能,在低速率语音编码上得到了广泛 的应用。 c e l p 编码模型如图2 3 所示。从图中可以看出,c e l p 用一个自适应码本中 的码字( 码矢量) 来逼近语音的长时周期性( 基音) 结构;用一个固定的随机码 本中的码字来逼近语音经过短时、长时预测后的余量信号。搜索出来的两个最佳 码矢量,乘以各自的最佳增益后相加,就得到c e l p 的激励信号源。再将激励信 号输入p 阶l p 综合滤波器1 a ( z ) ,得到合成语音,合成语音与原始语音s ( ,1 ) 的误 差经过感觉加权滤波器w ( z ) 得到感觉加权误差p ( 功。c e l p 用感觉加权的最小 平方预测误差作为搜索最佳码矢量及其幅度的度量准则,使感觉加权误差e ( n ) 平 方最小的码矢量即是最佳码矢量。 在c e l p 算法中,对于码矢量搜索的运算复杂度很大,而且对于特定码率的 算法,码矢量需要进行单独的训练。当传输率降到4 k b p s 以下时,c e l p 的语音 质量下降很快,这是因为码本尺寸不足,无法精确描述语音波形使得合成噪声变 第二章低速率语音编码概述 9 自适应码本 图2 3 c e l p 编码示意图 语音信号 大;同时它采用的均方误差准则对低速率语音编码并不十分适用。所以,直接将 c e l p 应用与4 k b p s 以下的语音编码难以获得很好的语音质量。 2 、正弦模型 正弦模型代表了一类重要的编码算法,其关键特征在于,浊音信号由一组幅 度、相位和频率时变的正弦波相加来产生,正弦波的幅度、相位和频率在相邻帧 间保持连续。正弦模型中比较著名的有正弦变换编码( s t c ) 和多带激励模型 ( m b e ) 。 正弦变换编码由美国麻省理工学院( m i t ) 林肯实验室的m c a u l a y 和q u a t i e r i 提出,其最基本思想是合成语音是由一组正弦信号的线性组合得到,正弦信号的 幅度、相位和频率是时变的。 早期的正弦变换编码中,正弦波的幅度、相位和频率由语音的短时傅立叶谱 的峰值决定,与基音周期没有多大关系。这种编码方法可以得到高质量的合成语 音,但由于模型参数较多,难以降低编码速率。当正弦编码用于低速率编码时, 正弦波的频率限制在基音频率的整数倍上,仅编码传输正弦波的幅度信息,相位 信息在合成端生成。这一点与下面将要提到的m b e 十分相似。但s t c 和m b e 在模型参数的提取和表示上有较大区别:s t c 的谱包络由f f t 谱峰值插值得到, 然后转换成倒谱系数编码传输。 1 9 8 8 年m i t 的g r i f f i n 和l i m 提出了多带激励模型,在g r i f f i n 的博士论文中 给出了一个8 k b p s 的m b e 编码器。h a r d w i c k 和l i m 采用离散余弦变换量化正弦 波幅度,将速率降到了4 s k b p s ,称之为改进型多带激励( i m b e ) 模型【1 4 j : 4 1 5 k b p s ( j j i l s q 错到6 4 k b p s ) 的i m b e 算法已被国际海事卫星组织( i n m a r s a t ) 1 0 基于f p g a 的低速率语音声码器的研究与实现 定为卫星话音通信标准。 4 k b p sm b e 的语音质量与c e l p 相比各有优势,这是因为正弦模型合成语音 的失真与c e l p 不同:c e l p 在低速率时噪声大,清晰度下降,但自然度仍较好; 正弦模型的合成语音清晰,但有合成感。一般认为正弦模型前景较好,在美国联 邦m e l p 算法中也采用了多带处理的模型。 3 、原型波形插值( p ) a t & t 的w b k l e n i j i n 提出的原型波形插值( p w i ) 方法是针对浊音段处理而 言的,清音段仍需要用其它方法处理( 如c e l p ) 。对于浊音段语音,相邻基音周 期的波形变换不大。p w i 在分析端从语音信号的每一帧( 约2 0 3 0 m s ) 当中都提 取出一个基音周期段作为原型波形,并对其余量信号进行编码传输。合成端通过 线性插值到其它基音周期段而形成激励信号。合成的激励信号通过线性预测合成 滤波器得到重建语音。k l e i j i n 采用了频域的方法即傅立叶级数来表示原型波形, 传输傅立叶级数的系数,这实质上是表示了一组正弦信号,所以虽然p w i 源于重 建原始语音波形,但它与正弦模型等参数编码有内在的联系,基于p w i 原理的一 种被称为时频插值编码( t i m e f r e q u e n c yi n t e r p o l a t i o nc o d i n g ,简称t f i ) 的方案 在2 4 - - 4 k b p s 之间得到了相当好的效果【l 引。但由于p w l 只是对浊音进行处理,对 于清音则采用c e l p 方法,因此在采用p w i 和c e l p 方法编码的转换语音段会出 现明显的失真;而且由于对基音周期进行线性插值产生的机械的周期性,使得合 成语音中会出现蜂鸣声。 4 、混合激励线性预测( m e l p ) 声码器 混合激励声码器的主要特点就是将周期脉冲和白噪声调整后混合作为激励 信号,用以克服简单的二元激励的不足【1 6 1 。具体来讲,浊音的激励源是由经过低 通滤波的周期脉冲序列与经过高通滤波的白噪声相加而形成的,周期脉冲与噪声 的混合比例随输入信号的浊化程度改变;清音的激励源是白噪声加上位置随机的 一个正脉冲跟随一个负脉冲的脉冲对形成的爆破脉冲。对于爆破音,脉冲对的幅 度增大,与语音的突变成比例,反之则脉冲对的幅度很小。此外在浊音帧基音相 关程度不大,或者余量信号中有大的峰值时( 主要是过渡帧的情况) ,应在激励信 号中引入一个抖动( j i t t e r ) 因子:即在激励信号中的周期脉冲里,对每个基音周 期的长度乘上一个在o 7 5 1 2 5 之间均匀分布的随机数,使得周期脉冲的相位产 生随机抖动,采用以上的措施,语音的自然度得到了改善,原二元激励合成引起 的金属声、重击声和音调噪声大量减少,同时对u 判决的敏感程度有所下降。 低速率的语音编码将会掀起新一轮的研究热潮,而混合激励线性预测编码作 为低速率语音编码方法中的一种,有着许多方面的优点,具有广阔的发展前景。 第三章m e l p 声码器编解码原理 第三章m e l p 声码器编解码原理 美国在1 9 8 1 年公布了联邦标准线性预测编码算法l p c 1 0 ,即f s 1 0 1 5 0 t j 标 准。但音质不令人满意,主要是对爆破音的处理不好,后来又提出增强型的 l p c 1 0 e ,但终因当时对语音的研究深度不够,效果也不理想。1 9 9 7 年3 月,1 1 公司的a v m c c r e e 等人提出的混合激励线性预测( m e l p ) 算法最终被确定为美 国联邦2 4 k b s 标准,替换了旧标准f s 1 0 1 5 1 s l 。与l p c 1 0 声码器类似,m e l p 声码器的采样率也是8 k h z ,每1 8 0 个样点为一帧,帧长为2 2 5 m s ,每帧量化比 特为5 4 ,总的速率为2 4 k b s 。 m e l p 是基于传统的线性预测编码( l p c ) 模型,但是包含了五个自身的特 征【1 9 】:混合激励、非周期脉冲、自适应谱增强、脉冲扩散以及傅立叶级数幅度模 型。混合激励的实现是利用了多带模型( m b e ) ,其主要功能是减少通常的l p c 声码器所带有的蜂鸣声;非周期脉冲大多用于语音信号的清音段和浊音段的转化 区间,这一特征保证了解码器能重现复杂多变的声门脉冲,而不引入音调噪音; 自适应谱增强滤波器的作用是增强合成语音共振峰结构,使得合成语音拥有更自 然的质量:脉冲扩散减少了合成语音中的刺耳成分;傅立叶幅度模型是对l p c 分 析后的残差信号进行傅立叶变换,提取十个基音谐波的幅度参数,在这些参数中 的信息提高了在听觉感知十分重要的语音产生模型的精确度。 3 1m e l p 声码器编码原理 m e l p 声码器编码过程如图3 1 所示。其大致过程为:数字化后语音信号通 过一个四阶的切必雪夫( c h e b y s h e v ) 高通滤波器,滤除5 0 h z 的直流工频干扰, 然后采用多带混合激励进行清浊音判决,以提取准确的基音信号;为了改善合成 语音的音质,m e l p 编码技术把语音分为清音、浊音、和抖动浊音3 种状态;线 图3 1m e l p 声码器的编码原理框图 1 2 基于f p g a 的低速率语音声码器的研究与实现 性预测主要包括输入语音信号的分析和残差信号的分析:当浊音段信号的周期性 不是很好时,通过非周期标志在译码端采用与之相适应的激励源激励不稳定的声 带脉冲;m e l p 声码器按照感知加权失真度最小的逼近准则,采用四级码本的快 速搜索矢量量化算法,大大地缩短了码本搜索时间;经过纠错编码后的比特流打 包后,通过通信系统发送出去。 3 1 1 预处理 编码过程的第一步是去除可能在输入语音信号中存在的任何低频能量,主要 是滤除5 0 h z 工频干扰。实现方法是采用一个四阶的切必雪夫高通滤波器,截去 频率为6 0 h z 以下的信号,其阻带的衰减为3 0 d b ,高通滤波器的传递函数为 2 0 l : 一,、0 9 2 6 9 2 3 7 0 5 6 z 叫+ 5 5 5 7 4z 一2 3 7 0 5 6z q + 0 9 2 6 9 2z - - 4 爿2 t 夏8 4 6 西1 曩5 5 2 1 i c 菇35 6 5 2 i r - i - 丽08 5 9 1 页9 = 广 ( 3 1 )、7 1 3 z 叫+ 5 z 一。一z 一3 z 一4 、。17 3 1 2 相关编码参数分析 l 、基音周期的提取 ( 1 ) 整数基音周期提取 输入的语音信号首先用截止频率为l k h z 、6 阶的巴特沃思低通滤波器进行滤 波,用来消除在参数分析中语音的高频成分对基音周期估算的干扰。巴特沃思滤 波器的特性是能够使通带内的幅度响应最大限度地平坦,其传递函数为【2 1 】: 日( 力= 0 0 0 1 0 5 + 0 0 0 6 3 z 一1 + 0 0 1 5 7 7 z 一2 + 0 0 2 1 0 3 z 一3 + 0 0 1 5 7 7 2 4 + 0 0 0 6 3 z 一5 + 0 0 0 1 0 5 z - 6 1 2 9 7 8 5 z 一1 + 4 1 3 6 1 z 一2 3 2 5 9 8 z 一3 + 1 5 1 7 3 z 一4 0 3 9 l1 2 z 。+ 0 0 4 3 3 6 z - 6 ( 3 2 ) 整数基音周期尸l 等于在归一化自相关函数r ( o 达到最大值时所对应的百值, 其中t 的取值范围为4 0 个1 6 0 个样点( 对应的基音频率为2 0 0 h z - 5 0 h z ) 。归一 化自相关函数r ( o 定义为 m ,2 蒜 b 3 , 式中 这里【】表示取整,基音分析窗的中心是式( 3 3 ) 网中的样点s o 。在整数基音 m 侉 “ 卜s 卜篁 一 一 h b = 、, 玎聊 l e 第三章m e l p 声码器编解码原理 1 3 的计算中,基音分析窗的中心是当前帧的最后一个样点,当输入为当前帧的最后 一个样点时,滤波器的输出是s o 。 设语音信号为j ( 功,嘶,i o ) 、“玎,妨为s 伽) 在南时刻相继的两段信号【嘲,令帆( 以) 为长度为t 的窗函数,则 x ,( 力,i o ) = s ( 刀) ( 刀) y 。( 丹,i o ) = s ( n + t ) w t ( 刀) 由于两段相继的语音信号具有相关性,于是可以表述为: ( 3 - 5 ) ( 3 6 ) ( 刀,i o ) = a ( i o ) y ,( n ,i o ) + e ,( 即,i o ) ( 3 - 7 ) 其中口( 妨是在o 时刻正幅值的调制增益,e ( n ,i o ) 表示两段语音的非相似性。 在z - - - p l 时,e ( n ,i o ) 至o 达最小。由归一化均方误差函数最小值得到: n 卜学 为了获得最佳增益值口( 如) ,由j 对a ( i o ) 求偏导同时令偏导数为零, a ( i 。) = ( x ,y ) 一l y l : 其中 ” o ,y ) = x 乃 = ( y ,j ,) 一 将式( 3 1 0 ) 代入到式( 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论