




已阅读5页,还剩62页未读, 继续免费阅读
(通信与信息系统专业论文)voip中语音压缩codec的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 ys 2 】量s v o l p 技术与目前广泛使用的p s l l n 电话网技术相比,有通信成本 低、列级简单、充分利用网络资源及符合未来网络发展趋势等优势。 本课题的研究对象_ | e 是v o i p 中的一项关键技术语音压缩编解码 技术。语音压缩编解码的目的就是保持一定的语音质量的同时,尽可 能地将所需要传输的语音流降低。在当前网络状况下,高效的语音j j ; 缩编斛鹳揣可以节省网络传输带宽,解决| ) c ;9 络搠挤问题。 本课题所完成的语音压缩编解码器以共扼结构代数码本激励线 性预测算法为基础,在单片数字信号处理器上实现全部编解码功能, 并目进行了多项优化处理,有较少的执行时间、较低的比特率( 8 k b s ) 和良好的音质。另外,本文创新之处在于通过对语音特性的分析,结 合原编解码算法提出了一种运算量较小但有效的话音激活检测算法, 进步将平均比特率降低到约4 k b s 。经过实验分析,以上设计和实 现能够很好地满足f o p 中全双工实时语音通信的要求。 关键词:v o i p 语音编解码话音激活检测 a b s t r a c t c o m p a r e d w i t ht h ew i l d l yu s e dp s t nt e l e p h o n en e t w o r kt e c h n i q u e , v o l ph a sm a n ya d v a n t a g e s ,s u c ha sl e s sc o m m m t i c a t i o n sc o s t ,e a s i e r u p g r a d e d ,m a k i n gt h em o s t o fn e t w o r kr e s o u r c ea n da c c o r d i n gw i t ht h e n e t w o r kd e v e l o p i n gt r e n di nt h ef u t u r e t h eo b j e c t ,w h i c hi sr e s e a r c h e d i nt h i st h e s i s ,i sak e yt e c h n i q u eo fv o l pt h a ti ss p e e c hc o d e c t h e s p e e c hc o d e ci s av e r yi m p o r t a n tp a r ti nv o l ew h i l ek e e p i n g g o o d v o i c eq u a l i t y , t h ep u r p o s eo f u s i n gt h es p e e c hc o d e c i st or e d u c et h eb i t s t r e a m ,w h i c h i sn e e d e di nt r a n s m i s s i o na sm u c ha s p o s s i b l e w e l l f u l f i l l e ds p e e c hc o d e cc o u l dm a k et h em o s to ft h eb a n d w i d t ho f n e t w o r kt r a n s m i s s i o n t h a tr e a l l yd o e sw e l lt op a c k a g et r a n s m i s s i o n a n e f f i c i e n tl o wr a t es p e e c hc o d e cc a ng e tw e l lu t i l i z e dt os o l v et h ep r o b l e m o f n e t w o r k c o n g e s t i o nu n d e r t h ec i r c u m s t a n c eo f c u r r e n tn e t w o r k t h es p e e c hc o d e ca c c o m p l i s h e di nt h i st h e s i si si m p l e m e n t e do n t h ed i g i t a ls i g n a lp r o c e s s o rw i t hl o wb i tr a t e ( 8 k b s ) a n dg o o dt i m b r e a n dt h ev o i c ea c t i v i t yd e t e c t i o n ( v a d ) a l g o r i t h mi sd e s i g n e do nt h e b a s eo fi t ,t h a tw i l ll o w e rd o w nt h ea v e r a g eb i tr a t et oa b o u t4 k b s a sa r e s u l t ,t h ed e m a n do fr e a lt i m ef u l l d u p l e xc o m m u n i c a t i o ni nv o i pw i l l b en l l f i l l e d k e y w o r d s :v o i ps p e e c hc o d e c v a d 引言 声音是人类互相交流,互相传递信息的一种主要手段。在人类与自然界的交 往中,约有2 0 的信息来自外部声音信号。语言是社会牛活中进行信息交流的最 基本的方法。迄今为止,人类已构成的通信系统中,语音通倩力式仍然是最主要 的信息传递途径,因此语音信号的处理非常重要。 语音编码技术是数字化语音传输和存储的基础技术。与模拟语音相比,使用 语音编码技术的数字语音传输和存储系统,具有可靠性高、抗干执能力强、便于 快速交换和价格低廉等优势。因此,它在通信系统中所占的比例不断提商。这些 实际应用推动了语音编码、特别是低速率语音压缩编码的发展。 从世界上第一个计算机到计算机的i p 电话v o c a l t e c 的出现,v o i p ( v o i c e o v e ri p ) 的概念正逐渐被业界接受,语音业务在i n t e r n e t 上的传输已经基本上 成为共识。v o l p 技术将语音信号压缩并封装成数据包后,在i p 网络越础1 2 进行 分组传输,是当今网络通信的一大突破。也就是说,周过开放性的网络传输语音 的电信应用服务系统,利用i n t e r n e t 提供实时语音服务,而不再是使用基于传 统电路式交换的公众电话网络( p s t n ) 来进行远距离交谈。 就目前网络现状,在采用i n t e r n e t 传输语音删,有几方丽因索是必须考虑 的:即时延、带宽要求和计算量。时延描述数据包从发送方传到接收方所需的叫 间。带宽是影n l i j n 音质量的一个主要因素,也是当前最难解决的问题。f - f 前所能 做到一方面是提高i n t e r n e t 的固有带宽,另一方面是在现有网络带宽下采用商 效的语音压缩编解码算法来降低传输比特率。计算量是指支持语音业务所涉及到 的计算开销和复杂度,主要是指语音编解码器的复杂度和开销。一般来说,压缩 率比较高的算法都比较复杂,所需的计算量比较大。 但是,目前所使用的传统的语音压缩方式( 例如6 4 k b sp c m ) 比特率较高, 如果在i n t e r n e t 中传输,势必会使本己沉重不堪的网络负担更重,而且也增加 了数据传输量,不利于降低成本,这不适应v o f p 语音通信技术的发展。因此, 应用高效、实时的语音压缩编解码器( c o d e c ) 势在必行。经过压缩后的语音如 用于传输,可以降低每路话音所需带宽,在同样的带宽内能够传输更多路语音信 号,在i p 网络上将经过压缩后的语音流打包,可以尽量减少传输的数据量,从 引言 而节省成本。另外,艇缩后的语音如果用于存储,则可以节约空间,提高存储语 音长度。 当前的各种语音编码算法,主要可以分为波形编码、参数编码和混合编码三 大类。波形编码力图使重建语音的波形保持原始语音的波形形状,但比特率较高, 因此不适合在i p 嗣络中传输。参量编码通过提取语音的特征参数,保持重建语 音的可懂度,可以有效地降低编码比特率,但合成出的语音质量不是很高。混合 编码则结合了上述两种方法的优点。既利用了语音生成模型又使编码过程产生接 近原始语音波形的合成语音,提高了语音的质量。对于v o i p 技术中的语音编解 码领域,主要研究热点是:一方面尽量降低压缩编码后的比特率,另一方面是在 低速率下尽可能提高语音信号质量,以适应语音在i p 网络上传输,因此编码方 法通常采用混合编码。 本课题所涉及的语音压缩编0 犁码技术是v o i p 的三大关键技术之一,是v o i p 网关及i p 话机中的重要组成部分。本文在单片d s p 芯片上完成了共扼结构代数 码本激励线性预测编解码算法,将原始语音( 1 6 位、8 k h z 采样) 的比特率压缩 到8 k b s 。另外,对于v o l p 通信来说,语音编解码器的效率和处理的实时性尤 其重要。冈此本文还针对进一步降低比特率的方法进行研究和实验,提出了一种 有效的话音激活检测方法。陔方法在共扼结构代数码本激励线性预测编解码算法 的基础上进一步降低了大约5 0 的比特率。同时,针对编解码的实时性要求进行 了多项优化,减少编解码过程的处理时问。经过实验验证,整个系统能够满足 v o l l 3 中实叫、高效的全双工语音通信应用的需求。 随着现代通信事业的蓬勃发展,特别是电话业务和多媒体通信业务的普及, 加上基于i p 网络的v o i p 语音通信新业务的迅猛增长,语音压缩编解码技术必将 得到更为广泛的应用。 笙二至塑! ! 丝查塑堕型丝茎差塑垫查 一一 第一章v o l p 技术的原理及其关键技术 v 。i p ( v 。i c eo v e ri n t e r n e tp r o t o c 0 1 ) 是一种以i p 电话为主,利用i p 网络 传递话j 特业务( 包括话音传真话带数据等) ,通过t c p i p 协议实现传统的电话 应用,并推出相应的增值业务的技术。 v o l p 可以在i p 网络上低成本的传送语音、传真、视频和数据等业务,如虚 拟电话、语音咖j 箱、查号业务、呼叫中心、电视会议、电子商务和各种信息的存 储转发等。v o l p 技术能广泛地采用i n t e r n e t 和全球i p 互联的环境,提供比传 统业务更多、更好的服务。 第一节v o l p 技术的原理及应用 一、v o i p 技术的优势 刚猗广泛使用的电话网络是p s t n 传统电话网。p s t n 传送话音业务有如下优 点: 具有良好的服务质量( q o s ,q u a l n yo fs e r v i c e ) 保证; 延迟时间极低( 卜2 m s ) 。 但是也有如下缺点: 基于电路交换的结构,使得p s t n 电路数量庞大,结构复杂,成本高,补 充新业务复杂( 七号信令的应用已使得p s t n 向智能网发展,但硬件的改造仍很 复杂) ; 计费复杂,交换机间互通性问题严重; 业务提供商间互联困难。 由于v o l p 采用了基于统计时分复用( s t d m ,s t a t i s t i c a lt i m ed i v i s i o n m u l t jp l e x i n g ) 的i p 网络进行电话业务,并采用了先进的数字信号处理( d i g i t a l s i g n a lp r o c e s s i n g ) 技术进行语音压缩编码、话音静音判断等,比固定传送速 率、固定电路分配的p s t n 网络更具优势。这些优势主要表现在以下几点: 符合“三网合一”的发展方向 在以高效率进行数据业务的i p 网络上进行话音、传真甚至视频业务传送已 筇一章v o i p 技术的原理及其关键技术 成必然之势,旧网络已遍布全世界,这无疑是“三网合一”( 电话网、有线电视 网、数据网) 的fu _ 茫途径。 充分利用网络资源 采用先进的数字信号处理技术进行语音压缩编码,使得一路话音传送所需的 带宽从原米的6 4 k b s 减小到8 k b s 甚至更低,从而使得在同一条线路上可以进 行更多路的呼叫,充分利用了网络资源。 价格低廉的服务 使用v o i p 技术,用户可以用市话的价格在任何时间向全球任何地方发送传 真或拨扣电话。数字信号处理技术和统计时分复用的结合使得通过v o i p 进行电 话业务传送的成本远低于传统的p s t n ,这也是它的最大优势。单从带宽的节约 上,v o i p 的成本约为传统p s t n 的1 1 0 ;而且i p 电话没有长途概念,均按时间 或流量计赞,所以在长途业务上更具竞争力。 升级简单和可扩展性 v o l p 网关- p 广泛采用微处理器及可编程的d s p 技术,升级和操作十分简单, 通常只需要更换运行在微处理器和d s p 处理器中的软件,既节省经费又节省时 间。 二、v o l p 的基本传输过程 传统的电话网是以电路交换方式传输语音,所要求的传输带宽为6 4 k b s 。 而v o l p 是以i i ) 分组网络为传输平台,对模拟的语音信号进行数字压缩、打包等 一系列的特殊处理,使之可以采用u d p 协议进行传输。为了在一个i p 网络上传 送语音信写,要求几个元素和功能。最简单形式的网络由两个或多个具有v o i p 功能的设备组成,这些设备通过一个i p 网络连接。 可以简单地将v o i p 的传输过程分为下列几个阶段: 1 语音,一数据转换 语音信号是模拟波形,通过i p 网络来传输语音,不管是实时的应用业务还 是非实时应用业务,首先要对语音信号进行模数转换。 2 原数据到i p 的转换 h 语音信号进行了数字编码,下一步就是对语音包以特定的帧长进行压缩 编码。太部分的编码器都有特定的帧长,编码器编码后,将压缩的帧合成一个压 第一章v o i p 技术的原理及其关雠投术 缩的语音包送入网络处理器。网络处理器为语音包添加包头、时标和其他信息后 通过网络传送到另一端点。i p 网络不像传统电路交换网那样形成实际电路连接, 它要求把数据放在可变长的数据报或分组中,然后给每个数据报附带寻址和控制 信息,并通过网络发送,一站站地转发到目的地。 3 传送 在这个通道中全部网络被看成一个整体,特续不断地从输入端接收语音包, 然后在定时闯内将其传送到网络输出端。网络中的中间节点检查每个i p 数据 报附带的爿址信息,并使用这个信息把该数据报转发到目的地路径卜的下一站。 网络链路可咀超支持i p 数据流的任何拓扑结构或访问方法。 4 i p 包一数据的转换 目的地v o z p 设备接收这个i p 数据报并开始处理。在数据报的处理过程中, 玉掉寻址和控制信息,保留原始数据,然后把这个原始数据提供给解码器。解码 器将语音包解压缩。 5 数字语音转换为模拟语音 播放驱动器将缓冲器中的语音样点按预定的频率播出。 简而言之,语音信号在i p 网络上的传送要经过从模拟信号到数字信号的转 换、数字语音编码并封装成i p 分组、i p 分组通过网络的传送、i p 分组的解包和 数字语音解码并还原到模拟信号等过程。 三、v o l p 的接入方式 目前,i p 晤音接入终端主要有三种:普通电话、多媒体p c 枫和i p 电话机, 相应地存在p c 机联网接入方式、网关接八方式和i p 电话直接接入方式。 p c 机联网接入方式是在用户联网的p c 机上配置一个声卡、话筒、扬声器和 语音处理软件,就可在i n t e r n e t 上进行语音的通信、接收和发送。i p 电话接入 方式是将i p 电话机直接连接在局域网中,通过局域网来连接i n t e j r n e t 。网关接 入方式是在用户局设立v o i p 网关,用尸端只需使用普通电话机,就可通过 jn l n e t 进行弧啬的发送、接i 故和传输。这是一种最常见的连接方式,如图1 】1 所示。 v o f p 网芡应舆有i n t e r n e t 语音、传真的透明传递、记费和管理功能,配置 和维护个v o l p 网关还需要个高度综合并具有图形用户接口( g u i ) 的网络管 第一章v o l p 技术的原理及其关键投术 理系统,这个图形用户接口不仅应易于使用,还要具有智能,从而避免配置的无 效性。 一十 四、v o l p 技术的应用及推动其发展的动力 在许多场合,v o l p 技术仅指通过i p 网络实现普通电话的功能,i p 电话是 v o i p 技术最重要的应用。然而,在新业务不断发展的情况下,v o l p 的含义和设 计目标也超越】,其字面意义。v o i p 网关是公众电话网与i p 网络的转换接口,它 :衔庞大的电信网与i n t e r n e t 相连。如何利用计算机的功能和网络资源,在电话 业务的基础之t :实现各种增值业务,才是它的真正价值所在。 随着i n t e l n e t 实时业务的发展基于v o i p 通信的应用越来越多,除了i p 电话以外,电话会议系统、语音信箱、基于w e b 网的呼叫中心、文档共享、计算 机电话集成技术等都是利用v o i p 技术进行语音传输的典型应用。 由于相关的硬件、软件、阱议和标准中的许多进展和技术突破,使得v o i p 技术的广泛使用很快就会变成现实。这些领域中的技术进步和发展为刨建一个更 有效、功能利互操作性更强的v o l p 起着推波助澜的作用。推动v o i p 飞速发展乃 至广泛应用的技术因素可以归纳为如下几个方面: 1 数字信号处理器( d i g i t a ls i g n a lp r o c e s s o r ,d s p ) d s p 主要用于执行复杂的实时性要求较高的计算。语音压缩编解码的计算开 = “! :一 ,1 龆 销非常大,使用d s p 可以从中央c p u 卸载其中复杂的语音压缩算法的计算任务 。,- 一、 臻黪j 博垮蝌! ,黪羲秘l 使中央c p u 有更充分的时间来处理系统的其他任务。 2 中央处理单元( c p u ) 技术 通用c 叫在功能、功率和速度方面继续发展。这使p c 能够广泛应用,并提 高了受c p u 限制的系统功能的性能。 3 i p 传输技术 传统p s t k 大多采用时分复用方式,v o i p 采用的是统计时分复用方式。后者 第一章v o f p 技术的原耻及扎关键技术 对网络资源利用率更高,互联互通简捷有效,这是v o l p 得以飞速发展的重要原 凼之一。日前,除已问世的新一代t pl 办议i p v 6 外,i e t f 提出了多协议标记 交换技术( i s ) ,这是一种基于网络层选路的各种标记的交换,能提高选路的 灵活性,扩展网络层选路能力,提高网络性能。 4 宽带接入技术 i p 网络的用户接入己成为制约全网发展的瓶颈。从长期发展看,用户接入 的终极日标是光纤到户。目前主要采用的接入技术有:p s t n 、i s d n 、a d s l 、c a b l e m o d e m 、e t h e r n e t 以及宽带无线接入系统等。 可以预言,目前v o i p 技术的应用只是一个开端,它将会取代现有的大部分 传统电信业务,成为未来通信的一种主流模式。随着我国电信业从垄断到竞争, 从限制到逐步开放,形成开放、透明的运营格局,v o i p 技术将会得到越来越广 泛的应用。 第二节v o l p 的关键技术 一、v o l p 为干1 么选择i n t e r n e t 来支持语音业务 i n t e r n e t 是一+ 个无连接的、尽力而为的传输网络,它具有传输延迟的不确 定性和分组丢失的突发性。从i n t e r n e t 的特性来看,使用它传送语音并不是最 佳选择。但为什么v o i p 仍然选择这样种技术来支持语音业务呢? 主要有以下 三个方面的原囚: 1 语音和数据业务的融合可使带宽合并,而带宽合并使得数据信道的利用 率得到提高。 2 - i p 协议的普遍存在和成熟。特别是i p v 6 的出现,使i n t e r n e t 的特性有 很大的改善,随着传输语音等实时业务相关的协议也不断推出,例如r t p 等,使 得基于i n t e r n e t 的语音通信成为可能。 3 语音自身有定错误容限能力。偶尔有一个包损坏了,并不会影u 向语音 的质量。如果丢失的包不超过总发送包数的l o ,也不会严重影响音质。 第一章v o l p 拽术的原耻及其关触技术 二、v o i p 的关键技术 v o i p 主要包括三项关键技术,包括: 1 媒体编码技术 语音压缩编码技术是i p 电话技术的一个重要组成部分,一直是v o i p 的关键 技术之一,它涉及信息的压缩、特征提取和台成等问题,并且与网络带宽和用户 接入方式都有密切的关系。与之相关的技术还包括话音激活检测技术和回声消除 技术。话音激活检测技术可以有效剔除静音信号,从而使话音信号占用的带宽要 求进一步降低。回声消除技术用来消除对通话质量影响很大的回声干扰,保证通 话质量。 图像编码方面有i p 网络会议系统采用的h 2 6 1 和h 2 6 3 等标准。 2 i p 分组传输技术 高可靠性的t c p 用于一次交换大量报文的情况,高效率的u d p 用于一次交换 少盘的报文或实时性要求较高的信息。实时传输协议r t p 提供具有实时特征的、 端到端的数掘传输业务,可以用来传送声音和活动图像数据。通常r t p 的协议数 据即元是用u d p 分组来承载的。 3 控制信令技术 控制信令技术保证电话呼叫的顺利实现和舌音质量,并且可以实现各种高级 的电话业务,如类似p s t n 上的智能网业务,综合业务数字网( i s d n ) 上的补充 业务等。目前被广泛接受的v o i p 控制信令体系包括i t u ( 国际电信联盟) 建议 的卜l3 2 3 系列和i e t f ( i n t e r n e t 工程任务组) 的会话初始化协议s i p 。 筇二章低速率语音编码原理 第二章低速率语音编码原理 第一节语音信号产生的数字模型 、语音的产生机理 产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流,声带既是阀门, 又是振动部件。声带的声学功能是为语音提供主要的激励源。由声带振动产生声 音,是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。每开启和 闭合一次的时洲即振动周期称为基音周期,其倒数称为基音频率,简称为基频。 基音决定了声音频率的高低,范围约为7 0 3 5 0j i z 左右,它随发音人的性别、年 龄及具体情况而定,一般老年男性偏低,小孩和青年女性偏高。语音中由声带振 动产 _ - l n :j 声音称为浊音,而刁i 由声带振动产生的声音称为清音。 声道是由咽、口腔和鼻腔组成,它是一根从声门延伸至口唇的非均匀截面的 声管。声道是一个分布参数系统,它有许多自然谐振频率,所以声道是一谐振腔, 它放大某一频率而衰减其他频率分量。讲话时,舌和唇连续运动,使声道常常改 变外形和尺0 ,随即改变谐振频率。这些谐振频率称为共振峰频率,简称为共振 峰。语音的频率特性主要是由共振峰决定的。声门脉冲序列具有丰富的谐波成分, 这些频率成分与声道的共振频率之f 司相互作用的结果对音质有很大影响。由于声 道的大小随不同讲话而不同,因此共振峰频率与讲话者有密切关系。共振峰用依 次增加的多个频率表示,如f l 、f 2 等,称为第一共振峰、第二共振峰等。表2 1 1 给出了前三个共振峰的大致范围。 表2 1 1 共振峰频率范围( 单位:h z ) 频率范围 成年男子成年女子带宽 f 12 0 0 - 8 0 02 5 0 1 0 0 04 0 7 0 f 26 0 0 2 8 0 07 0 0 3 3 0 05 0 - 9 0 1 :313 0 0 3 4 0 015 0 0 4 0 0 0 6 0 一1 8 0 第二章低速牢语音编码原删 二:、建立语音信号的数字模型 表示抽样语音信号的离散模型是特别重要的。为了定量描述语音处理所涉及 到的某些因素,虽然已经假定了许多不同的模型,但是目前还没有发现一种可以 洋细拙述人类语音中已观察到的全部特征的模型( 由于它的复杂性,也许不可能 找到一个理想的模型) 。建立模型的基本准则是要寻求一种可以表达一定物理状 态下的数学关系,要使这种关系不仅具有最大的精确度,而且还要最简单。 最理想的模型是线性时不变的模型。但是语音信号是连串的时交过程,根 据语音的产卜机理,不能精确地满足这两种性质。此外,声门和声道相互耦合, 还形成语音信号的非线性特性。然而,做出一些合理的假殴,在较短的时间间隔 内表示语啬信号t 卜j ,可以采用线性时不变模型。下而将给出经典的语音信号数字 模型,这里,语音信号被看成是线性时不变系统在随机噪声或准周期脉冲序列激 励下的输出。 长期研究证实,发清音和浊音的激励情况是不同的: 发浊音时,气流在通过绷紧的声带时,冲激声带产生振动,使声门处形 成准周期性的儿永冲串,并用它去激励声道。声带绷紧的程度不同时,振动频率也 不同。 发清音时,声带松弛而不振动,气流通过声门直接进入声道。 语音信号产:生的模型如图2 1 1 所示。 可 图2 1 1 语音信号的产生模型 三、语音信号的分析方法 语音信号处理包括语音压缩、语音合成、语音识别、说话人识别和语音增强 等方而,但其 i 提和基础是对语音信号的分析。只有将语音信号分析成表示其本 第二章低速率语音编码原理 质特性的参数,才有可能利用这些参数进行高效的语音通信。而且,语音合成的 音质好坏、语音识别率的高低,者f j 取决于剥语音信号分析的准确性。 根掘所分析的参数不同,语音信号分析可分为时域、频域和倒谱域等方法。 州域分折具有筋甲、运算量小、物删意义明确等优点但更为有效的分析是围绕 频域进行旧。按照语音学观点,可将语音分析分为筷型分析法和非模型分析法两 种。其中模型分析法是指依据语音产生的数字模型,来分析和提取表征这些模型 的特征参数。j 竹不进行帧型化分析的其他方法都属于非模型分析法。 贸穿- j :语音分析全过程的是短时分析技术。根据列语音信号的研究,其特性 足隧时m j 而变化的,月i 以它是一个非稳态过程。虽然语音信号具有时变特性,而 在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个 准稳态过程。语音的重要特性是它具有短时性,所以对语音的分析和处理必须建 立在短时的越硼上即进行短时分析,将语音信号分为一段一段来分析,其中每 一段称为+ 帧。由于语音通常在1 0 3 0 m s 之内是保持相对平稳的,因而帧长一般 取为l o - 3 0 m s 。 第二节线性预测分析和矢量量化的基本原理 线性预测( i 。i _ n e a rp r e d i c t i o n ,l p ) 的重要性在于它能够极为精确地估计语 音参数,用极少的参数有效地表现语音波形及其频谱的性质,而且可以用比较简 单的训算求得参数。 矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 是另一种极其重要的信号压缩方法, 它广泛应用于语音编码、语音识别与合成、图像压缩等领域。 本节将介绍语音信号处理中的线性预测与矢量量化这两种重要技术。 一、线性预测分析的原理 线b l :预测的基本概念是:一个语音的抽样能够用过去若干个语音抽样的线性 组合米逼近c 通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小 值,即进行最小均方误差的逼近,能够决定唯一的一组预测系数。 将线性预测应用于语音,不仅希望利用其预测功能,而且要求它能提供一个 第二章低速率语音编码原理 非常好的声道模型。而这样的声道模型对理论研究和实际应用都是相当有用的。 此外,声道模型的优良性能不仪意昧着线性预测是语音编码的特别合适的编码方 法,而且也意味着预测系数是语音识别的非常重要的信息来源。因此,线性预测 的基本原理和语音信号数字模型密切相关( 参见上一节) 。可以用准周期脉冲( 在 浊音期) 或随机噪声( 在清音期) 激励一个线性时不变系统所产生的输出作为语 音。为了表征列声道参数进行估值,线性预测提供了一种强有力的、可靠而精确 的力法。 线性预测分析的基本原理是将被分析的信号用一个模型来表示,即将信号看 作是某一个模型的输出。这样,就可以用模型参数来描述信号。 模型的系统函数h ( z ) 可以写成有理分式的形式: 1 + b f = “ 1 一即“ ( 2 2 1 ) 式( 2 2 1 ) 中,系数“、b ,及增益因子g 就是模型的参数,而p 和q 是选定的 模型的阶数,凶而信号可以用有限数目的参数构成的模型来表示。用u ( n ) 表示模 型的输入,s ( n ) 表示模型的输出,根据上式可得模型输入与输出之间的时域关系 为: ,q s ( h ) = “,s ( n f ) + g b “( 一,)( 6 0 = 1 ) ( 2 2 2 ) i 一】 k 0 这是一个线性常系数差分方程。此式表明,模型的输出是模型过去的输入、 当前的输入及过去输出的线性组合。当模型的参数设计好以后,就可以用模型的 输入及过去的信号值来估计当前的信号值。 根据h ( z ) 的形式不同,有三种不同的信号模型: h ( z ) 同时含有极点和零点,称做自回归一滑动平均模型,简称为 a r m a ( a u t o r e g r e s s i v em o v i n ga v e r a g e ) 模型,这是一种最一般的模型。 当式( 2 2 1 ) 中分子多项式为常数,即b ,= o 时,h ( z ) 为全极点模型,这 时模型的输出只取决于过去的信号值,这种模型称为自回归模型,简称为 帮二章低速牢语爵编码原删 如果h ( n 的分母多项式为i ,口( z ) 为全零点模型,称为滑动平均模型, 简称m ( t o v i 暇a v e r a g e ) 模型。_ 【l = l n , 1 模型的输出只由模型的输入来决定。 实际上最常用的模型是全极点模型。这是因为:全极点模型最容易计算,对 全极点模型作参数估计是对线性方程组的求解过程,相对来说比较容易:有时无 法知道输入序列,比如对一些地震应用、脑电图及解卷积等问题;如果不考虑鼻 音和摩擦音,那么语音的声道传递函数就是一个全极点模型。 而对于鼻音和摩擦音,细致的声学理论表明其声道传输函数既有极点又有零 点,这时如果模型的阶数p 足够高,可以用全极点模型来近似表示极零点模型。 因为一个零点可以用许多个极点来近似,即 一l 1 1 一“z 2 丁_ = j _ = r r 了_ ( 2 2 3 ) 1 + n = 一l + 02 z 一2 + d3 z 一3 + 、6 6 o , 如果分母多项式收敛得足够快,只取其少数几项就够了,所以全极点模型为 实际应用提供了合理的近似。 二、建立线性预测方程 模型的建立实际上是由信号来估计模型参数的过程。因为信号是实际客观存 在的,因此用模型表示它不可能是完全精确的,总是存在误差。因为极点阶数p 和零点阶数口无法事先确定,可能选得过大或过小,况且信号是时变的。因此求 解模型参数是一个逼近过程。对于全极点模型: h ( z ) = ( 2 2 4 ) 卜章= 5 ( ) 和2 ,( ,7 1 之闸的关系可以用下列差分方程来表示 s ( ,z ) = “,一( 一一) + o u ( n ) 把如i 下系统 j ( ) = “j ( 一f ) ( 2 2 5 ) ( 2 2 6 ) 第二壹低速率语音编妈原理 称为线性顶测器,因为它是由与s ( 月) 邻近f 勺过去的,个值线性组合得到的 即由s ( n ) 过去的值来估计当前值s ( n ) 。式中口,称为线性预测系数。琊介的线性预 测器的系统函数具有如下形式: 输出 ,( :) = “,= ( 2 2 7 ) 信弓值s ( ”) 与线性预测值j ( n ) 之差称为线性预测误差,用e ( ) 表示,即 p e ( n ) = j ( ”) 一j ,( ) = j ( 珂) 一罗仃,s ( n f ) 百 ( 2 28 ) f i i 、f :式n j 见,预测误差序列是输人为s ( n ) 且具有如下系统转移函数 ;勺系统的 爿( z ) = l 一“z “ ( 2 2 9 ) 比较式( 2 2 5 ) 和式( 2 2 8 ) ,如果语音信号准确地服从式( 2 2 5 ) 的模型 有口( n ) = g u ( n ) 。胃( :) 可表示为 惭石g 。可g ( 22 ,】o ) 其中,a ( z j 称为逆滤波器,其物理意义就是进行反向线性预测。 式( 2 2 。1 0 ) 中,数字滤波牿日0 ) 的参数q 即是线性预测系数。因此,线性 预测分析的基本问题就是从语音信号序列中直接决定组线性预测系数 口) ,使 预测误差在某个准则下最小。这个准则通常采用最小均方误差准则。鉴于语音信 写的 时变特性,预测系数的估计值必须在一段语音信号中进行,即按帧( 一般取 为l o - 3 0 m s ) 进行。 三、求解线性预测分析 为了有效地进行线性预测分析,有必要用一种高效率的方法来解线性方程 组。经典解法有两神:种是自相关法,一种是协方差法。方法的选择取决于经 验和对s ( n ) 作出的假设。就信号特性而言,自相关法适用于平稳信号而协方差法 第二章低速率语营编码原理 适用于非平稳信号。在语音处理中,自相关法对摩擦音来说可以给出比较好的结 果,而协方差法刑于周期性语音可以给出比较好的结果。一般来说,自相关法略 简单些,运算量相列赦少,所以应用也比较多。在此仅介绍自相关解法的- g o 重 要结论,具体推导过程以及其他求解方法可参阅参考文献 1 7 。 这种方法假设s ( n ) 在0 n 一1 以外等于o ,即假定s ( n ) 经过有限长度的 窗处理。 通常,s ( n ) 的自相关函数定义为: ,( ) =( 1 j p ) 由于进行了加窗处理,所以自相关表示为 ,= s ( n ) s ( n 一) ( 1s s p ) ( 2 2 1 1 ) ( 2 2 1 2 ) 则预测系数( 。,) 可由下列托普利兹( r o e p l j t z ) 矩阵所表示的方程组得出 r ( 0 ) 7 ( 1 ) ,4 ( 2 ) r 0 ) r ( 0 ) r ( i ) r ( 2 ) ,( 1 ) ,( o ) r ( p 一1 ) r ( p 一2 ) r ( p 一3 ) r ( 1 ) ,( 2 ) ,( 3 ) r ( p ) ( 2 2 1 3 ) 对式( 2 2 】3 ) 这种托普利兹矩阵方程组可以用一种特殊的递推的方法求解, 其基本思想是:递推解法分步骤进行。具体步骤为:在某步我们已经有了一个 解,这是一个( i 一1 ) 阶预测器的系数。然后利用( i 一1 ) 阶预测器的系数计算i 阶 预测器的系数,即i 阶方程组的解可以用( i 1 ) 阶方程组的解来表示,( i 1 ) 阶方 程组的解又可用( i 一2 ) 阶方程组的解表示,依次类推。因此,只要解出一阶方程 的解,就可通过递推一步一步地解出任意阶方程组的解。在这种递推算法中,最 常用的是莱文逊一杜宾( l e v i n s o n d u r b i n ) 算法,这是一种最佳算法。这个算 法的过程为: 列于i = 0 时, e 。= r ( o ) ; 刺j 二第i 次递推: 一旧h 第二章低速率语音编码原理 ,= i 1 萎, - ia ,饥卜f ) ( 1 螂p ) 2 “= 女 3 划于j - 1 ,到i l a i = a ”一d ! j ” 4 = ( 1 一k ? ) e 。 上面各式中括号内的上标表示预测器的阶数。 i = 1 ,2 ,p 进行递推解,最终解为 口,= = 订;” ( i p ) 四、语音信号的矢景最化 ( 2 2 1 4 ) ( 22 1 5 ) ( 2 2 t 6 ) 利用上面的递推过程,可对 ( 2 2 1 7 ) 量化分为标量量化和矢量量化。标量量化是将采样后的信号值逐个进行量 化,而矢量量化是将若于个采样信号构成一个矢量,然后对此矢量一次进行量化。 当然,矢量量化压缩数据的同时也有信息的损失,但这取决于量化精度的要求。 矢量姑化是标量量化的发展,凡是用量化的地方都可以应用矢量量化。 矢量量化在语音信号处理中占有十分重要的地位,许多重要的研究课题中, 特别是低速率语音编码和语音识别的研究中,矢量量化都起着非常重要的作用。 矢量量化的研究基础是信息论的一个分支“率一失真理论”。该理论指出: 矢量量化总是优于标量量化,且矢量维数越大性能越优越。 矢量量化的原理是将语音信号波形k 个样点的每一帧,或有k 个参数的每一 参数帧,构成k 维空间l 巾的一个矢量,然后对这个矢量进行量化。通常所说的标 量量化,电可以说就是一维矢量量化。矢量量化的过程与标量量化相似。在标量 量化叫,神! 维的零至无穷大值之问设置若干个量化阶梯,当某输入信号的幅度 值落t 】:! | :某相邻的两个量化阶梯之问时,就被量化为两阶梯的中心值。而在矢量量 化州,则将k 维空删划分为m 个区域边界,然后将输入矢量与这些边界进行比 较,并被量化为距离最小的区域边界的中心矢量值。 下面以k = 2 为例进行说明。当k = 2 时,所得到的是二维矢量。所有可能的 二维矢量就形成了一个i 严面。如果记二维矢量为( a ,a ,) ,所有可能的( a ,d ,) 筘二章低述蹲i 语音编码原删 就是一个二维空叫。矢量量化先把这个平面划分成m 块( 相当于标量量化中的量 化区川) s l ,s :,s ,s 。,:然后从每一块中找出一个代表值f ( i = l , 2 ,m ) ,这就构成了一个有肘个区间的二维矢量量化器。 若要剥一个矢量进行量化,首先要选择一个合适的失真测度,然后用最 小失真原到! ,分别计算用量化矢量r 替代x 所带来的失真。其中最小失真值所 列应的那个量化矢量,就是矢量x 的重构矢量或称恢复矢量。通常把所有m 个 量化矢量构成的集合 r ) 称为码本或码书( c o d e h o o k ) 。把码本中的每个量化矢量 r ( i = 1 ,2 ,m ) 称为码字或码矢。不同的划分或不同的量化矢量选取就可 以构成不同的矢量量化器。 矢量量化系统的组成如图2 2 1 所示。其简单工作过程是:在编码端,输入 矢量,与码本中的每一个码字进行比较,分别计算出它们的失真。搜索失真最 小的码字巧。,序号,就作为传输或存储的参数。在恢复时,根据此序号从恢 复端的码本中找出相应的码字r m m 。由于两个码本是完全一样的,此时失真最 小,所以y j 。,就是输入矢量z ,的重构矢量。很明显,由于传输或存储的并不是 矢量本身而是其序号,所以矢量量化兼有高度保密的优良性能。并且,用于传输 时,其传输速率可以进步降低。 信道或 存储嚣 图2 2 1 矢量量化器的原理框图 由上而的讨论可知,矢量量化主要有两个问题: 如何划分必个区域边界。这需要用大量的输入信号矢量,经过统计实验 第二章低速率语卦编码原理 爿能确定。这个过程称为建立码本。方法是:将大量的欲处理信号的波形帧矢量 或参数帧矢量进行统计划分,进一步确定划分边界的中心矢量值来得到码本。 如何确定两矢量在进行比较时的测度。这个测度就是两矢量之间的距离, 或以其中某一矢量为基准时的失真度。它描述了当输入矢量用码本所对应的矢量 来表征删所应俐的代价。 矢量量化器的设训就是从大最信号样本中训i 练出好的码本,从实际效果出发 寻找到好的失真测度公式,设计出最佳的矢量量化系统,以便用最少的搜索和计 算失真的运算量,柬实现最大可能的平均信噪比。设计矢量量化器的关键是编码 器的漫计,而译码器的工作仅是一个简单的查表过程。 第三节低速率语音编码器的设计目标 在v o l p 技术中,带宽是影响语音服务质量最关键的因素,要解决这个问题, 有两种途径: 提高i n t e r n e t 的固有带宽。但是随着i n t e r n e t 数据业务和用户数的急 剧增长,带宽的提高也将受限。 尽量降低语音传输所要求的带宽。这就要求i n t e r n e t 语音的接入设备 ( 如v o l i 网关) 或者是终端设备能对语音数据进行压缩,以低比特率发送到网 络上。因此,低速率语音编码技术是v o i p 中最关键的技术之一。 语音编码器是v o i p 网关中的一个关键的部件,在设计语音编码器时,应尽量 满足如下要求: 1 尽量提高编码器的运行速度 能同时处理的通道数( 即处理密度) 是衡量v o i p 网关性能的一个关键指标, 它南接反映了该设备的性能价格比。在硬件环境确定的情况下,要提高处理密度 有两种措施,一是要尽量简化算法的复杂度,但编码和解码算法的复杂程度同语 音编码的质量有密切的关系。另方面要针对具体硬件资源来优化算法和提高编 程授巧,实现资源的合理分配和充分利用,从而提高编码算法的执行速度。 2 尽量采用低速率编码算法 考虑到i n t e f ( 1 el 的带宽受限,应尽量采用低速率语音编码算法。若采用高 掘二帝低速率语音编码原理 速率编码算法,在带宽不够的情况下,语音包的丢失更加严重,将导致语音质量 更差。 3 合理选择编码器的语音质量 语音编码质量是衡量语音编码算法优劣的主要性能之一。其评价方法可以分 成两类,即客观评定方法和主观评定方法。常用的客观评定方法有信噪比法和加 权信噪比法。其特点是计算简单,但不能完全反映人对语音质量的感觉,它们主 要适用于速率较高的算法。主观评定方法符合人类对语音质量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 非木竹材压片工艺考核试卷及答案
- 电机转子动平衡工艺考核试卷及答案
- 重碱煅烧工抗压考核试卷及答案
- 电子电气产品环境试验检验员工艺考核试卷及答案
- 企业物资采购流程及合同管理测试卷附答案
- 2025-2026学年赣美版(2024)小学美术三年级上册(全册)教学设计(附目录P129)
- 专家合作协议
- 英国秋招面试题库及答案
- 银行助贷面试题及答案
- 银行招聘 试题及答案
- 2025-2026学年人教版(五线谱)(2024)小学音乐三年级上册教学计划及进度表
- 学风建设科研诚信宣教课件
- 江西省宜春市2025年上半年事业单位公开遴选试题含答案分析
- 2025繁轩科技发展(天津)有限公司公开招聘工作人员35人备考题库及答案解析
- 2025年度水电项目工程结算与审计服务协议
- 医院物业管理质量标准及服务流程
- DR培训考试题及答案
- 脑卒中并发吞咽障碍个案护理
- 德育副校长在新学期德育工作部署会讲话范文
- (2025年标准)学生玩耍纠纷协议书
- 人力资源招聘与甄选工作标准化手册
评论
0/150
提交评论