已阅读5页,还剩70页未读, 继续免费阅读
(通信与信息系统专业论文)gsm系统中的语音编码算法研究及rpeltp编码系统的dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 g s m 系统中的语音编码算法研究及r p e - l t p 编码系统的d s p 实现 摘要 近几十年来,语音编码技术发展非常迅速。高速发展的d s p 技术为语音信号处理 提供了强有力的工具,使得实时实现各种各样的复杂算法成为可能。针对不同的应用, 国际标准组织制定了一系列的语音压缩编码标准。其中,r p e l t p 语音编码算法是由 英国、芬兰、原西德、法国、意大利、荷兰、挪威及瑞典等国组成的语音编码专家小组 从最初提交的2 0 多种语音编码方案中优选6 种进行了测试,最后以m p e l t p 和 r p e l t p 两种为蓝本,制定的码速率为1 3 k b i t s 的、带有长时预测环节的规则脉冲激励 线性预测编码器。 随黄超大规模集成电路技术上取得的突破进展,集成化的d s p 数字信号处理器具 有体积小、功耗低和运算速度快等诸多优点,因此非常适用于语音信号的压缩处理。目 前的d s p 芯片以其强大的数据处理功能而在通信和其他信号处理领域得到广泛注意, 并己成为开发应用的热点技术。 本文首先对当前语音压缩编码技术和标准进行综述,并对r p e - l 1 t p 语音压缩编码 标准做了介绍。然后研究算法原理,并对r p e l t p 算法的实现过程做了深入的分析。 分析了t i 定点d s p 的结构特点。最后,实现了r p e l t p 编码器: ( 1 ) 硬件平台的设计,主要完成d s p 部分的设计,完成d s p 部分的电路原理图 和p c b 图。 ( 2 ) 着重分析了语音压缩编码技术中最重要的几种实现技术:短时域处理技术、 线性预测分析、矢量量化、合成分析等。 ( 3 ) 用c 语言的方式,在t m s 3 2 0 c 5 4 0 9 上部分的实时实现了r p e l t p 编码器。 对实现过程中的存储器分配、指令选择、函数展丌、寻址方式选择和寄存器使用等方面 的问题进行了分析和优化。测试结果表明,该编码器可以应用于多通道通信等对时延要 求较高的领域。 另外,对编码器系统软件设计作了分析和介绍,并给出了测试结果。 关键词:语音编码,d s p 算法开发,规则脉冲激励长时预测,实时实现 l i i ! 查兰婴兰堂堡堕圭 垒! 壁坚! ! - - _ _ _ _ _ _ _ _ _ - _ _ - - _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ ,_ _ _ - j - - - - _ _ _ _ 一 t h es t u d yo ft h ev o i c e c o d i n g a r i t h m e t i ci n g s m s y s t e ma n dr p e l t ps y s t e mo nd s p a b s t r a c t i nr e c e n td e c a d e s ,t h et e c h n o l o g yo ft h es p e e c hc o d ei s d e v e l o p e dv e r yf a s t w i t ht h e r a p i dd e v e l o p m e n to fd s pt e c h n o l o g y , i tb e c o m e sap o w e r f u lt o o li nt h es p e e c hs i g n a l p r o c e s s i n g ,w h i c hm a k e si tp o s s i b l et oi m p l e m e n ta l lk i n d so fc o m p l e xa l g o r i t h m si n r e a l t i m e b a s e do nd i f f e r e n ta p p l i c a t i o n s ,m a n ys t a n d a r d so f s p e e c hc o m p r e s sc o d i n gh a v eb e e n e s t a b l i s h e db yd i f f e r e n ti n t e m a t i o n a ls t a n d a r d i z a t i o no r g n i z a t i o n s t h e r e i n t o ,r p e l t pv o i c e c o d i n ga r i t h m e t i ci sp r e s e n t e db yv o i c ec o d i n ge x p e r tg r o u p ,w h i c hi sc o n s t i t u t e db yt h e s c i e n t i s t sf r o me n g l a n d ,f i n l a n d ,g e r m a n y ,f r a n c e ,i t a l y ,h o t a n d ,n o r w a ya n ds w e d e n t h e v o i c ec o d i n ge x p e r tg r o u pc h o o s e s6s c h e m e sf r o m2 0a n dt e s t st h e m f i n a l l y t h e yf o r m u l a t e t h er e g u l a rp u l s ee x c i t e m e n t l o n gt i m ep r e d i c t i v ew i t h13 k b i t se n c o d i n gs p e e db a s e do n m p e l t pa n dr p e - l t p w i t ht h eg r e a tp r o g r e s s e sa n das e r i e so fb r e a k t h r o u g hi nv l s it e c h n o l o g i e s ,i n t e g r a t e d d s p sc a m eo u ts o o na f t e r i t e g r a t e dd s p sp o s s e s sm a n ya d v a n t a g e s ,s u c ha sc o m p a c t n e s s , l o wp o w e rc o s t , a n dh i g hw o r k i n gs p e e da n ds oo n ,w h i c bo r em o s t l ys u i t a b l ei ns p e e c h s i g n a lc o m p r e s s i n g p r e s e n td s p sa r eg e t t i n gm o r ea n dm o r ea t t e n t i o n si nt h ei n f o r m a t i o n f i e l d ,d u et oi t sp o w e r f u ls i g n a lp r o c e s s i n ga b i l i t y ,b e c o m i n gah o t - p o i n tt e c h n i q u ei n c o m m u n i c a t i o na n do t h e rr e l a t i n gs i g n a lp r o c e s s i n ga r e a s t h i sp a p e rf i r s t l yd e s c r i b e st h ep r e s e n ts p e e c h c o m p r e s sc o d i n gt e c h n o l o g i e sa n d s t a n d a r d s a n dt h es p e e c hc o m p r e s sc o d i n gs t a n d a r d sr p e - l t pi si n t r o d u c e d s e c o n d l y ,t h e a l g o r i t h mp r i n c i p l e so fr p e l t pa r es t u d i e d a n dt h ei m p l e m e n t a t i o np r o c e s so fr p e l t p a l g o r i t h mi sa n a l y z e dd e e p l y s t r u c t u r e sa n dp r o p e r t i e so ft if i x p o i n td s pa r ea n a l y z e d f i n a l l y ,t h er p e l t pe n c o d e ri si m p l e m e n t e d ( 1 ) t t a r d w a r ep l a t f o r md e s i g n ,t h i sa r t i c l em a i n l yc o m p l e t e st h ep o r t i o nd e s i g no fd s p , c o m p l e t e st h ec i r c u i tp r i n c i p i u mc h a r to fd s pa n dp c bf i g u r e ( 2 ) s e v e r a lk i n d so ft h em o s ti m p o r t a n tt e c h n o l o g yo ft h es p e e c hc o d eh a v eb e e n i n t r o d u c e di nt h i sp a p e r , f o ri n s t a n c e :s h o r tt i m ep r o c e s s ,l i n e a rp r e d i t i o na n a l y s e ,v e c t o r q u a n t i z a t i o n ,a n da n a l y s eb ys y n t h e s i z e ,e t c ( 3 ) t h er p e l t pe a c d o e ri sp a r t i a l l yi m p l e m e n t e do nt m s 3 2 0 c 5 4 0 9i nr e a lt i m ei nc l a n g u a g e i nt h ei m p l e m e n t a t i o np r o c e s s ,s e v e r a li s s u e sa r ea n a l y z e da n do p t i m i z e d ,w h i c h i n c l u d ea s s i g n m e n to fm e m o r i e s ,s e l e c t i o no fi n s t r u c t i o n s ,e x p a n s i o no ff u n c t i o n s ,s e l e c t i o n o fa d d r e s sm o d e sa n du s eo fr e g i s t e r s ,e t c t h et e s tr e s u l t ss h o wt h a tt h ee n c o d e rc a nb e a p p l i e di nt h er e a l m sr e q u i r i n gl o wd e l a ys u c ha sm u l t i c h a n n e lt e l e c o m m u n i c a t i o n s ,i l i 东北大学硕士学位论文 a b s t r a c t i na d d i t i o n ,t h ed e s i g no ft h es y s t e ms o f t w a r ea r ea n a l y z e da n di n t r o d u c e d ,a n dt h et e s t r e s u l t sa r eg i v e n k e yw o r d s :s p e e c hc o d i n g ,t h ea r i t h m e t i cd e v e l o p m e n to fd i g i t a ls i g n a lp r o c e s s ,r e g u l a r p u l s ee x c i t e m e n t l o n gt i m ep r e d i c t i v e ,r e a l - t i m ei m p l e m e n t a t i o n i v 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:夏禹南 日 期:咖“_ 6 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名: 签字日期: 导师签名: 签字目期: 东北大学硕士学位论丈 第一章绪论 1 1 引言 第一章绪论 语音是人与人之间进行信息交流最直接、最方便和最有效的工具,又是人与机器之 间进行通信的重要工具。因此,语音通信也是最基本、最重要的通信方式之一。1 8 7 6 年电话的发明可以认为是现代语音通信的开端。随着信息技术和通信技术的高速发展, 信道资源变得愈加宝贵。压缩语音信号的传输带宽或降低电话信道的传输码率一真是人 们追求的目标。随着计算机网络等技术的飞速发展,语音编码技术得到了快速发展和广 泛应用,尤其是最近2 0 年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以 及l p 电话通信中得到了广泛应用。语音压缩的目的是在保证语音质量的前提下,尽可 能的降低编码比特率,以便在有限的传输带宽内让出更多的信道来传送图像、传真、文 档、计算机文件和其它数据流,从而达到传输资源的有效利用和网络容量的提高。语音 压缩编码在实现这一过程中担当着重要的角色。语音压缩编码直是追求能在尽可能低 的数码率下获得尽可能高的合成语音质量的矛盾中发展的。 1 1 1 语音压缩编码技术的发展概况 随着信息社会和通信技术的高速发展,频率资源显得愈加宝贵。因此,压缩语音信 号的传输带宽或降低电话信道的传输码率,直是人们追求的目标。在数字蜂窝移动通 信中,数字化的语音电信号首先要进行语音编码。语音编码是数字通信中一个相当关键 的问题,它直接影响到通信质量、频率利用率和系统容量。压缩语音信号的传输带宽或 降低电话信道的传输码率,一直是语音编码追求的目标。特别是在蜂窝移动通信中,若 不采用语音压缩技术,通信信道效率将成倍下降。因此,语音压缩编码技术是当今数字 蜂窝移动通信中所必备的。 语音信号的数字化传输则是通信发展的主要方向之一,语音的数字通信与模拟通信 相比,无疑具有更好的效率和性能,这主要体现在:具有更好的话音质量;具有更 强的抗干扰性,并易于进行加密;可节省带宽,能够更有效地利用网络资源;更加 易于存储和处理。最简单的数字化的方法是直接对语音信号进行模数转换,只要满足 一定的采样率和量化要求,就能够得到高质量的数字语音。但这时语音的数据量仍旧非 常大,因此在进行传输和存储之前,往往要对语音进行压缩处理,以减少其传输码率或 存储量,即进行压缩编码。语音编码的目的就是要在保证语音音质和可懂度的条件下, 】 东北大学硕士学位论文 第一章绪论 采用尽可能少的比特数来表示语音信息。 语音编码最初是由人们企图压缩通信频带而来。自从1 8 7 6 年贝尔r a l e x a n d e r g r a h a mb e l l ) 发明电话以来,电话通信发展很快。但是,在之后几乎半个世纪中,人们 对电话系统了解甚少,在2 0 世纪2 0 年代,美国贝尔实验室开始研究电话信号,同时也 对电话系统的理论进行研究。 在半个多世纪的研究中,各国学者做出了大量的努力f i 】,从人类发音机理和听觉机 理出发,对语音的基本元素如声学特性、频谱特征和语意表达等做了大量的研究,建立 了发音模型和听觉模型,在不同程度上逼近真正的语言过程,并取得了长足的发展,逐 步形成了通信和信息处理科学的重要研究方向。 自从i 9 3 9 年美国的h o m e r d u d l e y 发明声码器以东,语音处理开始了参数编码或模 型编码的研究,它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年代以前,研究出实 用的共振峰声码器。s a t ol t a k u r a ( 1 9 6 6 ) 和a t a ls c h r o e d e r ( 1 9 6 7 ) 最早把“线性预测 ( l p c ) ”技术应用到语音分析和合成中。他们以线性组合模型满足均方误差最小意义 下逼近原始波形的方法提取参数,研究出了自相关法、协方差法和格型法等实用快速算 法。1 9 6 6 年,j l f l a n a g a n 提出了以瞬时频率为基础的相位声码器。1 9 6 9 年,a v o p p e n h e i m 提出了以倒谱为基础的同态声码器。在众多声码器中,l p c 声码器最终因其 成熟的算法和对参数的精确估计成为语音信号处理领域里最重要的研究成果,并逐步走 向实用。1 9 8 2 年,美国国家安全局( n s a ) 公布了2 4 k b i t s 的l p c 一1 0 声码器标准 ( v s 1 叭5 1 ;1 9 8 4 年,美国国防部制定了s t u i i i 计划,采用2 4 k b i t s 的l p c ,l o e 增强型 声码器,并于1 9 8 6 年正式投入使用。 近年来随着第三代移动通信的发展,变速率语音编码技术相应得到发展。为了充分 利用c d m a 技术,q u a l c o m m 于1 9 9 3 年提出了可变速率的c e l p ,通常称为q c e l p 【z j 。 它有4 个可供选择的传输速率( 1 ,2 ,4 ,8 k b s ) ,通过计算输入能量,并与三个闽僮 能量比较来选择传输速率。这种技术已成为北美数字蜂窝通信标准( c t i a i s 9 5 ) 。1 9 9 9 年公布的第三代伙伴计划【3 1 ( 3 蹦g e n e r a t i o np a r t n e r s h i pp r o e c t ) 把自适应多速率( a m r ) 语音编解码作为主要技术。该技术有8 种速率( 1 2 2 ,1 0 2 ,7 9 5 ,7 4 0 ,6 7 0 ,5 9 0 , 5 15 ,4 7 5 k b i t s ) 供选择,并采用语音激活技术( v a d ) 、舒适背景噪音( c n a ) 、源控 速率( s c r ) 、重帧及误码消除( e c u ) 、抗稀疏处理等先进技术。它能根据信道质量选 择不同的编码速率,通信质量接近或达到长途电话质量。变速率语音压缩编码理论上仍 属于c e l p ,但在“变”上有新的研究,引入了相关的先进技术。随着网络的发展,语 音i p ( 4 】( v o l p ) 对语音压缩编码的需求十分迫切。在h 3 2 3 系列建议中规定了音频编 2 一 东北大学硕士学位论文 第一章绪论 解码算法符合i t u 标准,如g 7 1l ( a 律或“律) 、g 7 2 2 、g 7 2 3 1 、g 7 2 8 、g 7 2 9 a 等。 另外,随着研究的深入,语音编码的研究也引入了新的分析技术,例如非线性预测、 小波分析技术以及高阶统计分析技术等。预计这些技术更能挖掘人耳听觉掩蔽等感知机 理更能以类似入耳的特性作语音的分析与合成,使语音编码系统更接近于人类听觉器 官的处理方式工作,从而在低码率语音编码的研究上取得突破。 1 1 2 语音编码算法的评价 数字音频信号的压缩虽然可以降低传输速率,但同时会降低音质,增加复杂度、时 延等。因此需要从音频质量、传输速率、算法复杂度和编解码时延【5 】等方面综合评价数 字音频编码算法的性能。 ( 1 ) 音频质量 音频质量包括声音的可懂度、清晰度和自然度。若所统计的语言单位为有意义的语 言单位,测试结果称为可懂度,如单词可懂度、单旬可懂度。当所统计的语言单位为意 义不连贯的语言单位,则称清晰度,如语音清晰度、音节清晰度。自然度则反映语音的 韵调特性。 评定音频质量的方法包括客观评定法和主观评定法。客观评定法是通过测薰某些特 性来评价解码得到的音频的质量。如测量信噪比、平均分段信噪比等。但客观评定法与 人对音频的感知不完全一致。 得到广泛应用的是主观评定法。如以平均主观意见打分( m e a n o p i n i o ns c o r e m o s ) 的方法来度量。它分为优( 5 ) 、良( 4 ) 、中( 3 ) 、差( 2 ) 和劣( 1 ) 五级。若察觉不到 编码失真,可评定为5 分;对于高质量语音,达到长途电话网的质量要求,可评为4 0 4 5 分;当语音质量有所下降,但不足以妨碍正常通信,可评为3 5 分。 此外,值得注意的是,在很多应用场合中,音频信号有大量的背景噪声。雨且,在 信号的传输过程中,信道失真也是不可避免的。这就要求解码器必须有足够强的容错能 力。另外,级联以及不同的语种对音频编解码器的处理效果都有一定的影响。所有上述 问题都是在设计和选用音频编解码器时必须考虑的。 ( 2 ) 传输速率 如果数字音频信号的抽样频率为,对每个抽样的幅度值用r 位二进制编码表示, 就得到了数字音频信号的传输速率( 也可称为码率或比特率) i ,即: ,= r ( 1 1 ) 此即为该数字音频信号在通信线路上每秒钟应传送的位数,或者保存一秒钟信号所 一3 东北大学硕士学位论文 第一章绪论 需占用的存储容量。单从数据压缩的角度看,传输速率常常是体现数字音频编码器压缩 算法技术水平的最主要的指标。 ( 3 ) 算法复杂度 数字音频编码器经常利用数字信号处理器( d s p ) 等硬件来实现。这些硬件的特性 ( 复杂度) 通常以计算速度( 例如以每秒执行多少百万条指令,即m i p s 来表示) 、随 机存诸器c r a m ) 及只读存储器( r o m ) 来描述。从系统设计者的角度来看,高复杂 度意味着高成本和高功耗,因此,算法的复杂度是一个重要因素。如果数字音频编码器 在整个系统的功率和费用中分担的份额较小( 1 0 左右) ,那么在给定传输速率的情况 下,选择音质最好的编码器,非常有意义。这时功率消耗或成本方面的变化,不会使编 码器在整个系统中所占的百分比大幅度增加。如果这个份额较大,则必须进一步权衡。 ( 4 ) 编解码时延 数字音频编解码器的时延主要由算法时延和处理时延两部分组成。在压缩音频信号 之前必须把一帧有效数据存入缓存,这种时延称为算法时延,这是唯一的一种不能通过 改变实现方法来减少豹时延。处理时延是编码器压缩音频信号和解码器重建音频信号所 用的时间,它取决于编解码器的算法复杂度和实现编解码器的硬件的速度。算法时延和 处理时延的总和称为单向编解码时延。 一个完按的音频帧从编码器传输到解码器所需的时间称为通信延迟。单向编解码时 延和通信延迟的总和称为单向系统时延。在实时通信中,系统时延对通话质量有很大影 响。在没有回声的情况下,可以容忍的单向系统时延的最大值为4 0 0 m s 。然而,新的测 试方法表明,如果通信上容易实现,单向系统时延最好低于2 0 0 m s 。如果有回声,可以 容忍的单向系统时延的上限仅为2 5 m s 。因此,增加回声抑制功能通常是必要的。 1 2 用d s p 技术实时实现语音压缩算法的需要 近年来,由于超大规模集成电路( v l s i ) 工艺的进步和专用集成电路( a s i c , a d p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t ) 的广泛使用,极大的推动了数字信号处理( d s p , d i g i t a ls i g n a lp r o c e s s i n g ) 技术的发展。各大芯片生产厂商纷纷推出各具特色的高性能 数字信号处理专用芯片( d s p ,d i g i m ls i g n a lp r o c e s s o r ) ,如德州仪器公司( t j ,t e x a s i n s t r u m e n t s ) 的t m s 3 2 0 系列d s p 、m o t o r o l a 公司的d s p 5 6 x x x 系列、模拟器件公司 ( a d ,a n a l o gd e v i c e s ) 的a d s p z l 0 0 系列、a t & t 公司d s p l 6 系列等。为提高运算 速度以满足实时数字信号处理算法的要求,当前的d s p 都采用与通用微处理器( m c u ) 不同的结构,即放弃冯诺依曼结构而采用哈佛结构。哈佛结构使得处理指令和数据可 4 东北大学硕士学位论文 第一章绪论 以同时进行,从而大大提高处理速率。d s p 以其卓越的运算能力为数字语音信号处理领 域的研究及刀+ 发提供了有力的工具。 目前t i 公司的t m s 3 2 0 系列d s p 在国际国内使用的极为广泛,已占据全世界d s p 器件市场6 0 的份额,品种最多。在本文中采用t m s 3 2 0 v c 5 4 0 91 6 位定点d s p 芯片的 硬件平台来实时实现该语音编解码算法。 1 3 本文的主要研究内容 语音信号生成数字模型的建立是参数编码理论的前提。本文首先搭建了系统的硬件 平台,分析语音形成机理,构造出语音信号生成的数字模型,然后以r p e l t p 算法开 发为例,详缅地给出了一个基带算法从提出、模拟仿真到平台实现的全部过程,实现了 预处理、l p c 分析、短时滤波等几个部分,在定程度上去掉了语音信号的短时相关性, 通过对编码语音进行解码,获得了较高质量的合成语音。并希望在基带算法开发领域积 累更多的经验,为今后在整个移动终端领域的深入研究提供有价值的理论参考。 由于本论文的研究只是基带算法研究与开发的一个开始,无论在理论知识的理解、 硬件平台的设计,还是在算法的编程、算法可行性分析以及最终的性能测试方面都不是 太成熟和完善,还需要相当长的时问进行工作总结和经验积累。但这个开始对于我们将 是一个很大的进步。 1 4 本论文的结构 第一章:绪论 主要介绍语音编码技术的发展概况,语音编码技术在现代通信中的必要性,以及语 音编码算法的评价参数。 第二章:r p e - l t p 语音编码算法研究 本章主要论述低比特率的语音压缩编码理论,重点讨论了混合编码的编码原理和编 码过程,并详细介绍了g s m 手机语音编码器一一规则脉冲激励长时预测编码器 ( r p e l t p ) 的开发过程,为本论文硬件所实现的算法提供了理论依据。 第三章:r p e l t p 编码系统硬件设计 首先通过分析我们目前的实验条件和研究现状提出设计用于开发数字移动通信手 机基带算法通用平台的思想,然后根据当前数字移动通信手机硬件结构提出通用平台的 芯片组成,最后结合实际项目开发经验,设计了用于移动通信基带算法开发的通用平台, 并给出了各个器件连接的电路原理图。 5 东北丸学硕士学位论文第一章绪论 第四章:基于c c s 的d s p 系统软件设计 本章主要进行语音编码算法r p e l t p 算法的d s p 编程工作,对开发d s p 算法 的全部过程进行了详细的讨论。从软硬件平台构成、算法运行环境设置、测试算法的数 据获取,到算法编程都给出了全面的介绍,并通过具体开发r p e l t p 算法,分模块对 算法进行具体编程。 第血章:r p e l t p 编码器的测试及实现 d s p 算法开发并不是一个一蹴而就的过程,在丌发任何算法之前都要对算法进行模 拟仿真,初步获取算法的可行性报告,可以说,算法仿真模型对算法实际开发至关重要。 因此,本章先介绍了m a t l a b 调试辅助d s p 软件的设计工作,然后将在c c s 下运行的 结果再做以详细说明。通过比较,得出本实验的算法编程的可行性。 第六章:结束语 对本论文的研究和开发工作做了概括性的总结,并对下一步工作给出了一些建议和 设想。 6 , 东北大学硕士学位论文 第二章r p e l t p 语音编码算法研究 第二章r p e l t p 语音编码算法研究 2 1 语音编码理论 语音编码的目的是要在保持重建语音质量的前提下,降低数字信号的比特率。语音 编码器总是包含一个编码器和一个解码器【6 1 ,编码器取来原始的语音信号,并产生低速 率的比特流。这个比特流传送到解码器,它能够近似地重构原始语音信号。 语音编码器在实现这一目标的过程中担当着重要角色。语音编码器就是压缩语音信 号的数字表示而使表达这些信号所需的比特需求最小的算法。模数转换器的输出通常是 脉冲编码调制( p c m ) 信号。要保证电话语音的高质量( 带宽限制为3 0 0 3 4 0 0 h z ) , 则线性p c m 信号必须具有8 k h z 的采样率和1 6 b i u s 样品的分辨度,所得到的比特率为 1 2 8 b i u s 。这个比特率,能够作为未编码语音的参考比特率。 语音传输或存储的近似比特率,依赖于传输和存储的代价、数字语音编码的代价和 对语音质量的要求。在1 9 8 0 年以前,语音编码的高价格和低质量,使得语音编码很少 被使用。由于数字信号处理硬件的效率猛增,加上语音编码研究的进展,已经明显改变 了这种情况,现在语音编码已经大量使用了。 在所有的语音编码器中,重构信号和原始信号是不会完全相同的。比特率的降低是 由于用较低的精度表示语音信号,或者是用语音模型的参量来表示语音信号,也能从语 音信号中,除去固有的冗余度而降低比特率( 无损失编码) 。但是,如果使用模型和参 量,降低了精度就不会没有损失( 有损失编码) 7 1 ,使用降低精度的方法来表示一个标 量或矢量的过程叫做量化。在重构语音信号时,由于量化而造成的失真称为量化噪声。 通常,语音编码器的主要属性是: 比特率; 主观的语音质量; 计算复杂度和对存储器的要求; 延迟; 对于通道误码的灵敏度; 信号的带宽。 语音编码器可以分为两类:波形编码器和参量编码器。由于合成分析技术的广 泛应用,人们又提出了混合编码器。由于混合编码器与参量编码器有很多相似之处,所 以在这罩仍把编码器划分为两类来介绍。 一7 东北大学硕士学位论文第二章r p e l t p 语音编码算法研究 ( 1 ) 波形近似编码器 波形编码系统直接对语音时域或频域波形样值进行编码,产生重构信号,它用减少 量化误差的方法,使重构语音朝着原始语音信号收敛。在波形近似编码器中,基本波形 是要保留的,它的信噪比通常是正值,因此,其基本出发点是获得尽可能高的信噪比 ( s n r ) 。在编码器的编码过程中,要经常测量信嗓比以便对性能进行校验。由于这种 系统保留了语音信号原始样值的细节变化,从而保留信号的各种过渡特性,所以其解码 声音质量较高。但高质量解码语音需要系统具有比较高的编码速率,以保持语音波形中 的各种过渡特性。传码率比较高、压缩比不大是此类系统最大的缺点。波形编码广泛应 用于电路交换网。最近,对于波形编码器又提出了一些新技术,例如后滤波器、改进激 励程序等,使得语音质量有比较大的提高。 在波形近似编码器中,最典型的应该是速率为3 2 k b i t s 的自适应差分脉码调制 ( a d p c m ,i t u tq 7 2 6 ) 。还有子带编码( s b c ,c c i t tg 7 2 2 ) 等。 ( 2 ) 参量编码器 参量编码又称声码器( v o c o d e r ) ,其基础是人类语音的生成模型。在参量编码器中, 语音信号是用一组模型的特征参量柬表示,它是由原始语音信号通过计算得到的,虽然 也依赖于原始语音信号,但是它和原始语音的波形没有直接关系。它的信噪比有可能为 负值,不能用信噪比来测量合成语音的质量,仅能作为一种参考。 使用线性预测模型i8 】的语音编码器,它也是先求出声道模型的特征参量,然后改变 激励参量,使原始信号和重构信号之间的相似性最大,以便优化这些参量。所以在原理 上,它接近波形近似编码器,称为混合编码器。 参量编码器的模型,是建立在人的发声器官生理结构的基础上。因此,要验证声道 的结构以及压力波从声带发出的机理,通常是可能的。但是,在实际的语音编码器中, 发声器官生理结构和模型之间的等效性,并不太重要。主要注意点仍然是在语音编码器 的属性上。 在参量编码器中,最早,而且最具有影响的应该是基于线性预测的声码器( 速率为 2 4 k b i t s 的l p c 1 0 e ) ,但是,由于它的语音质量不好,目阿已经被新的编码器所替代。 在这些编码算法中,使用合成分析法是非常成功的一种,它更客观的模拟了激励源 的特性,从丽使重构语音的质量具有本质性的提高。这样的编码器有i 多脉冲激励线性 预测编码器( m p e l p c ) 及规则脉冲激励线性预测编码器( r p e l p c ) ,码激励线性预 测( c e l p ) 编码器,矢量和激励线性预测( v s e l p ) 编码器,多带激励线性预测编码 器( m b e l p c ) 。最新的参量编码器有f 弦变换编码器,波形内插编码器等。 8 查兰苎兰塑兰茎! 燮 一 箜三主坚! :! ! ! 堡童堡竺墨生堑垄 2 2 语音压缩编码标准介绍 7 0 年代以来,数字语音t i 缩编码的各种国际标准集中反映了语音编码技术发展的 水平。制定语音压缩标准的国际标准组织主要有以f 几个:国际电信联盟( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o m i t u , 即原c c i t t ) 、 欧洲电信标准协会( e u r o p e a l l t e l e c o m m u n i c a t i o ns t a n d a r d si n s t i t u t e - e t s i ) 、北美蜂窝电话工业组织( c e l l u l a r t e l e c o m m u n i c a t i o n s & i n t e r a c t a s s o c i a t i o n ,c t i a ) 和国际海事卫星组织( i n m a r s a t ) 等。 表2 1 中列出了一些语音压缩编码国际标准。 表2 1 数字语音压缩编码国际标准 t a b l e 2 1 t h e i n l e m a t i o n a l s t a n d a r d s o f d i g i t a l v o i c e c o m p r e s s c o d 、i n g 标准 编码算法数码率 信号频带采样率用途 k b i t sk h z k h z 这些标准所采用的各种压缩技术,有的比较简单,为人们熟知,压缩比不高,有的 十分复杂,压缩比高。下面对i t u 常用的几个窄带语音( 0 3 3 4 k h z ) 编码标准作介绍。 一9 一 东北大学硕士学位论文 第二章r p e l t p 语音编码算法研究 ( 1 ) g 7 1 l 标准1 9 j i t u 于1 9 7 2 年制定的g 7 n 标准,采用标准的脉冲编码调制( p c m ) ,采样率8 k h z , 用8 比特进行非线性量化,传输速率为“k b i 讹。g 7 1 1 标准己极为广泛地应用于数字通 信,数字交换机以及一切语音数字化接口,从而使得p c m 信号成为了许多语音压缩标 准的输入信号。 ( 2 ) g 7 2 1 标准【1 0 】 1 9 8 4 年i t u 公布了使用自适应差分脉冲编码调制( a d p c m ) 的3 2 k b i “s 语音编码 标准g 7 2 1 ,并于1 9 8 6 年根据运行中出现的问题发布了修改版本。这一技术特点在于不 把语音信号直接量化,而是对它和预测值的差值进行量化。同时根据编码的结果,调制 线性预测系数。它不仅可以达到与p c m 相同的重建语音质量,而且具有比p c m 更优 良的抗误码性能,广泛应用于卫星,海缆及数字语音插空设备以及可变速率编码器中。 ( 3 ) g 7 2 8 标准【1 1 i t u 在1 9 9 2 年9 月制定了g 7 2 8 标准,算法采纳了由a t & t 公司提出的1 6 k b i u s 短时延迟码激励线性预测( l d c e l p ) 语音编码方案。g 7 2 8 标准的语音质量与3 2 k b i t ,s 的g 7 2 1 标准基本相当。l d ,c e l p 算法特点是语音短时谱与长时谱预测、增益因子预 测等参数不是从输入语音中直接提取,而是用一个5 0 阶长的预测器在后向来实现,传 送的信息则只是激励矢量,这就压缩了传输比特率。g 7 2 8 标准以其较小的时延、较低 的速率、较高的性能在实际中得到广泛的应用,例如:可视电话伴音、无绳电话机、单 路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、话音信息录音、数字 移动无线系统、分组化话音等。 ( 4 ) g 7 2 9 标准 j 2 j g 7 2 9 是i t u t 第十五研究组( s g l 5 ) 在1 9 9 6 年公布的8 k b i u s 语音压缩编码标准。 该编码标准采用共轭结构代数码激励线性预测( c s a c e l p ) 技术。同年通过了g 7 2 9 的附件a “减少复杂度的8 k b i d sc s a c e l p 语音编解码器”。 g 7 2 9 标准是基于码激励线性预测”1 ( c e l p ) 编码模型。采样率8 k h z ,帧长为1 0 m s ( 8 0 个样点) 。通过对语音信号的分析,提取c e l p 模型的参数( l p c 参数、自适应和 固定码本指标和增益因子) 。所有这些参数被编码后传送。在解码端,这些参数用于恢 复激励信号来重建语音信号。由于g 7 2 9 具有良好的语音通信质量,适中的复杂发和对 不同应用的适应性,因此将成为今后相当长时期内的语音编码算法。广泛应用于个人移 动通信、低c ,n 数字卫星系统、高质量移动无线通信、存储检索、分组语音和数字租 用信道等。 1 0 一 东北大学硕士学位论文 第二章r p e - l 2 p 语音编码算法研究 ( 5 ) g 7 2 3 1 【“j 】9 9 6 年,i t u 为多媒体通信传输制定了双速率的语音编码标准( 7 2 3 1 。该标准最 仞是为可视电话设计,是目阿i t u 公布的语音编码标准中速率最低的一种标准。g 7 2 3 1 工作在双速率下,即5 3 k b i t s 和6 。3 k b i t s 。其中高码率具有较高的重建语音质量,而低 码率的计算复杂度较低。( 3 , 7 2 3 1 采用目前流行的码激励线性预测技术,在对激励信号 进行量化时,高码率算法采用多脉冲最大似然量化( m p m l q ) 技术,低码率算法则采 用代数码本激励线性预测( a c e l p ) 技术。 2 3 规则脉冲激励线性预测声码器理论基础 2 3 1 语音模型的建立 为了对语音信号进行数学处理,首先要建立一种能够精确描述语音产生过程和语音 特征的数学模型。但是,语音的产生过程极为复杂,语音中包含着十分丰富和多样的信 息,至今还没有一种理想的模型能够精细地描述语音的产生过程和语音的所有特征。 】9 6 0 年,f a n t 提出了种线性预测模型【1 5 j 。该模型以人类语音的发音过程和语音 信号的声学特性为基础,成功地表达了语音的主要特性,成为当今最为流行的语音信号 产生模型。 人的发声机理是,发音时由肺部收缩送出一股直流空气,经气管流至喉头声带开口 处。在发声之扔。声带开口处的声带肌肉收缩,声带并拢( 间隙小于1 m m ) ,这股直流 空气冲过很小的间隙,使声带得到横向和纵向的速度,此时,声带向两边运动,缝隙增 大( 成年男性开到最大时,截面积约为2 0 m m 2 ) ,声带开口处压力下降,弹性恢复力将 声带拉回平衡位置并继续趋向闭合,即声带产生振动,而且具有一定的振动周期。利用 数字技术来模拟语音信号的产生称为语音信号的数字模型。发音器官能发出一系列声 波,那么数字模型就能产生与此声波相对应的信号序列。这种模型是一种线性系统,它 的一组参数选定之后就可以使得系统的输出具有所希望的语音性质,系统的这些参数是 和语音产生过程有关的。 综合考虑声带开口处的激励、声道和嘴唇辐射影响就得到如图2 、1 所示的语音发声 的离散系统模型。它由声源和声道两部分组成。声源包括激励信号和增益控制。浊音的 激
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 灵活就业劳动合同范本
- 演员参加节目合同范本
- 直播佣金协议合同范本
- 物业维保前台合同范本
- 项目打包回租合同范本
- 翻译合作协议合同范本
- 灯具安装承包合同协议
- 离婚协议赔偿合同模板
- 物业管理合同安全协议
- 酒店商务合作合同范本
- 手卫生知识竞赛
- 四川省绵阳市涪城区2024-2025学年九年级上学期1月期末语文试卷(含答案)
- 国家开放大学(电大)管理信息系统形考1-4答案
- 手术麻醉科简介宣传
- 城市旅游宣传片制作投标方案
- 【MOOC】融合新闻:通往未来新闻之路-暨南大学 中国大学慕课MOOC答案
- JGJT46-2024《施工现场临时用电安全技术标准》条文解读
- DB51-T 10002-2022 公共信息资源标识规范
- 高职劳动教育学习通超星期末考试答案章节答案2024年
- 地震灾害应急救援手册
- 九型人格之职场心理学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论