




已阅读5页,还剩46页未读, 继续免费阅读
(系统工程专业论文)无线VoIP系统中的宽带语音处理技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 v o i p 是一个快速崛起的语音通信技术,它通过i p 网络传输语音数据,实现各多媒 体终端之间的实时语音通信,其中最关键的是要求确保话音质量,其中研究优质高效的 语音编码技术是基础,也是首选方式。 语音压缩编码是为了有效存储大量语音信息,节省存储空间,在移动通信和无线i p 语音系统中得到广泛应用。随着通信带宽的扩展,在各种视听业务中,人们不仅要求听 懂对方的语意,还希望了解对方的情感和环境中的声音,也就是说追求一种自然的面对 面的通信质量,因此有必要进行宽带语音编码的研究。 c e l p 技术在窄带语音编码中已有成熟的算法,把该技术引入宽带语音编码的最大 优点是可保证话音质量的同时降低传输码率,提高压缩比。本文针对传统算法的不足提 出了基于零极点预测模型的c e l p 语音编码算法,该算法采用零极点模型来更准确地描述 语音信号的短时相关性,并用梯度法来同时对零极点模型的参数和激励码本增益进行联 合优化求解,有效提高语音质量有效提高语音质量。接着通过研究宽带语音编码方法, 提出了一种基于c e l p 的宽带语音编码方案,设计q 腼滤波器将输入宽带语音划分为高低 两个子带,对低子带采用窄带c e l p 编码方法,对高子带信号用a d p c m 编码。最后介绍了 基于局域网的p ct 0p c 的i p 电话软件的设计和开发过程,对v o i p 系统的结构有进一步 的认识。 关键字:v o l p c e l p 。宽带语音编码。分带 第1 页 国防科学技术大学研究生院学位论文 a b s t r a c t v o l p ( v i o c eo v e ri n t e r a c tp r o t o c 0 1 ) i sh i g h l yc h a l l e n g i n ga n dp r a c t i c a ln 鲫t e c h n o l o g yi n r e c e n ty e n t s t h ed a t ap a c k a g ei ss e n tt od e s t i n a t i o nv i amn e t w o r k , t h e nw ec a nr e a l i z et h e r e a l - t i m ec o m m u n i c a t ew i t he a c ho t h e r i nt h ec o u r s oo fv o 口d e v e l o p m e n t , q u a l i t yo fv o i c e h a sb e e nam a i nf a c t o ro f h o l d i n gb a c ki t sf l l r t h e l - p r o c e s s n 坞r e s e a r c ho f h i g hq u a l i t y h i g h l y e f f e c t i v es p e e c hc o d et e c h n o l o g yi st h ef o u n d a t i o n , a l s oi st h ef i r s tc h o i c ew a y 1 1 ”s p e e c hc o d i n gi st h ep r o c e s so fc o n v e r t i n gs p e e c hi n t od i g i t a lb i ts t x c a r n sf o r e f f c i e n t l yd i g i t a ls t o r a g ea n dt r a n s m i s s i o no v e rb a n d - l i m i t e dc h a n n e l s ri sn o ww i d e l yu s e di n d i g i t a l m o b i l ea n dc o m p u t c r - r d a t c dv o i c ec o m m u n i c a t i o u s w i t ht h eb a n d w i d t hi n c o m m u n i c a t i o n sb e c o m i n gl a r g e l yb r o a d e n e d , p e o p c lw i l ln ol o n g e rb es a t i s f i e dw i t hj u s tt h e c l e a r n e s so ft h ev o i c ei nv i d e oa n da u d i o m o r ei n f o r m a t i o na b o u tt h es p e a k e rs h o u l db e p r o v i d e d ,l i k ee m o t i o na n db a c k g r o u n dm u s i c t h a ti st os a y , p e o p l ea r ep u r s i n gf a c e - t o - f a c e s p e e c hq u a l i t y c o n s e q u e n t l y , t h eb a n d w i d t ho ft h ec o n v e n t i o n a ls p e e c h c o d i n gi sn o te n o u g h f o rp r o v i d i n gh i g hq u a l i t yr e c o n s t r u c t e ds p e e c h , a n dt h u st h er e s e a r c ho nw i d e b a n do ft h e s p e e c hc o d i n gi sn e c e s s a r y c e l pt e c h n o l o g yh a sh a dt h em a t u r ea l g o r i t h mi nt h en a 玎删b a n ds p e e c hc o d i n g , t h e b i g g e s tm e r i to fd r a w i n gt h i st e c h n o l o gi n t ow i d e b a n ds p e e c hc o d i n gm a yg u a r a n t e et h e v o i c eq u a l i t yi m u l t a n e o u s l yr e d u c et h et r a n s m i s s i o nc o d er a t e ,a n de 1 1 h a n c et h ec o m p r e s s i o n r a t i o i nv i e wo ft h et r a d i t i o n a la l g o r i t h m i n s u f f i c i e n c y , t h i sa r t i c l ep r o p o s e san o wc e l p s p e e c h c o d i n gm e t h o db a s e d o l lt h ea u t o r e g r e s s i v em o v i n ga v e r a g ep r e d i c t i v em o d e l t h ei i e 邢v m e 吐l o du s et h em o d e lt om o d e lt h es h o r t - t e r mc o r r e l a t i o no f s p e e c h e sa n dt h e 蓼a d i e n td e s c e n t a g l o r i t h mt oo b t a i na no p t i m a le s t i m a t i o no fc o d i n gp a r a m e t e r s , a n di tc a ne f f e c t i v e l yi m p r o v e t h es p e e c hq u a l i t y t h e nt h r o u g ht h er e s e a r c ho nw i d eb a n ds p e e c hc o d em e t h o d ,w e p r o p o s e so n ek i n d w i d eb a n dp r o n u n c i a t i o nc o d es c h e m eb a s e do nt h ec e u p w jd e s i g n t h eq m ff i l t e r t od i “d et h ew i d eb a n ds p e e c hi n t ot w os u b b a n d s a n dc o d et h el o w 盯b a n d w i t hc e l pn a r r o w b a n da l g o r i t h m , a n dt h eh i g h e rb a n dw a sc o d e du s i n ga d p c m a l g o r i t h m f i n a l l yw ei n t r o d u c et h ed e s i g no ft h ev o i c et r a n s m i t t i n gs o f t w a r ew h i c hc , a ns i m u l a t ev o m w i t hl a ne n v i r o n m e n t , a n dh a v ea 缸h e ru n d e r s t a n d i n go ft h ev o i ps y s t e ms t r u c t u r e k e yw o r d s :v o i c eo v e ri p , c o d ee x c i t e dl i n e a rp r e d i c t i v e , w i d e b a n ds p e e c hc o d i n g , s p l i t - b a n d 第1 i 页 国防科学技术大学研究生院学位论文 图2 1 图2 2 图2 3 图2 - 4 图2 5 图3 1 图3 - 2 图3 3 图3 4 图3 5 图3 - 6 图3 7 图4 t 图4 2 图4 1 3 图“ 图4 - 5 图锱 图5 1 图5 - 2 图6 - l 图6 - 2 图昏3 图甜 图6 - 5 图确 图6 7 图目录 语音生成模型示意图8 通用框架结构 一1 0 双通道正交镜像滤波器组一1 2 正交镜像滤波器组的频幅特性1 2 一种基于c e l p 的宽带语音编码方法1 5 合成分析法( a - b - s ) 示意图1 6 知觉加权示意图 矢量量化编码译码器1 8 二元激励语音生成模型 码矢量激励示意图 归一化均方误差比较图2 4 c e l p 算法结构图 q m f 分析器运算结构图2 9 q m f 综合器运算结构图 d p c m 工作原理3 0 自适应预测示意图3 1 高子带a d p c m 编码器一3 l 高子带a d p c m 解码器3 2 男声测试语音信号波形图 女声测试语音信号波形图3 5 系统结构图3 7 总体结构图3 8 音频模块结构图3 8 呼叫过程图3 9 应用程序与音频服务关系图4 0 c s o u n o 类的工作过程图4 i 音频数据传输图。4 2 第i i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题日:歪垡! ! ! 丞统生煎室堂透童丛矍撞盔盟窥 学位论文作者签名:生盘! ! !日期:z o 。年年月j 1 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印,缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:盘堡坠! ! 丕红生鲍宽堂适童缝堡挂盔亟塞 学位论文作者签名: 作者指导教师签名: 日期:z 口砖年月2 7 日 日期:b k 年q 月;一日 国防科学技术大学研究生院学位论文 第一章绪论 1 1 研究背景 语言是人类进行交流的重要手段,通信系统中最常见的数据形式就是语音。语音通 信是人类通信最基本、最重要的方式之一随着移动通信与互联网的飞速发展,语音通 信技术也在不断地进行更新并与之相融合。语音信号的数字化传输和存储,在可靠性、 抗干扰能力、快速交换等方面远胜于模拟化,且灵活方便,易于保密,价格低廉,所以 从2 0 世纪5 0 年代以来,数字化语音在通信系统中所占的比重越来越大。语音编码是数 字语音通信中的一项重要技术为了压缩数字语音传输的比特率,以使同样的信道容量 能传输更多路的语音信号,节省存储空问,语音压缩编码也有了很大的发展,并在有线 无线电话的话带语音信号、会议电视的宽带语音信号、h d t v 和高保真音乐等的音频信号 等领域有广泛的应用l ,j 1 1 1 因特网业务的发展趋势 多媒体通信技术的发展已经或将产生许多类型的因特网多媒体通信业务,如多媒体 会议型业务、多媒体会话型业务、多媒体分配型业务、多媒体检索型业务、多媒体消息 型业务和多媒体采集型业务等【3 8 】。实现这些业务的核心技术是采用因特网进行声、文、 图等多媒体信息的传输技术,其中最关键的是音频和视频信号的实时传输。 虽然目前受因特网带宽等因素限制,基于因特网的实时视频信号的传输的应用还不 是很普遍,但是在因特网上进行音频、特别是语音信号的实时传输已是相当普遍,其中 最为典型的应用是因特网电话1 4 2 j 。 因特网电话是因特网多媒体通信的一个典型业务,成为当前计算机网络技术和通信 技术研究的热点,因此它也是因特网增长最快的业务。人们之所以对因特网电话抱着如 此大的兴趣和如此乐观的态度,有以下几个主要原因【l j : ( 1 ) 因特网电话在很大程度上减少了长途( 国际、国内) 电话费用 ( 2 ) 因特网电话的使用标志着一种全新的功能更强的通信方式的产生。从而可以打 破电话的垄断市场。因为与传统的传输媒体相比较,因特网电话不仅具有传统媒体所具 有的一切表现形式和特点,而且传播信息容量大、不受时空限制,突破了传统地缘政治、 地缘经济的概念。形成以传输信息为中心的的跨国界、跨文化、跨语言的全新的传媒方 式。因此,因特网电话作为现有电话的竞争对手在将来的发展中会形成很大的市场。 ( 3 ) 符合未来“三网融一”( 电话网、有线电视网、数据网) 的发展方向【5 】。许多网 络专家都指出,网络的发展趋势是“i p 统一天下”,“e v e r yt h i n go v e ri p ”是网络发 展的目标。 总之,发展基于因特网的实时语音,无论是从技术发展趋势,还是从市场前景和投 资回报来分析,都是完全正确的。 语音网上基于原电路交换的业务将逐渐转移到分组交换和数据通信为基础的结构 上,在这种基础结构上,i p 将占主要地位。v o i p ( v o i c eo v e ri p ) 技术成为通信行业最 火热的焦点之一【n 第1 页 国防科学技术大学研究生院学位论文 v o l p 是建立在i n t e r n e t 基础上的新型数字化传输技术,是i p 网上通过t c p i p 协 议传输的一种电话应用“1 。从技术上讲,i p 网络电话是以i p 为标志的网络分组化和以多 媒体为标志的网络业务综合化两大主流技术融合的结果。 v o i p 的主要业务有i n t e r n e t 或i n t e r n e t 上的语音业务、传真业务、w e b 上实现的 i v r c ( 交互式语言应答) 业务等,另外还包括e m a i l 、实时电话业务、实时传真等多种 通信业务。 1 1 2v o i p 无线化 近年来,随着宽带网络的长足发展。特别是宽带无线网络的发展,v o l p 出现了无线 化的趋势【3 6 1 。特别是在移动通信领域,正在筹划中的第四代移动通信系统( 简称4 6 ) , 将是一个基于宽带无线广域网( 胛a n ) 、宽带无线城域网( w m a n ) 、宽带无线局域网( w l a n ) 和宽带无线个人网( w p n ) 的全i p 网络通信系统,语音数据将通过i p 包进行分组交换 和传输,即4 g 中的语音通信业务将使其成为一种典型的无线v o l p 系统,如何为4 g 语音 通信或其他无线v o l p 系统提供高质量的语音编码方法及其实现技术,已经成为多媒体通 信领域的一大研究热点。 1 2 国内外研究现状和发展趋势 语音通信在入类的信息交流中占有举足轻重的地位。对语音信号的模拟传输持续了 近一个世纪,但它不可避免地逐渐被数字系统所取代了。数字传输方式使得语音的传输 变得多样化、追求低成本变得可能、保密的要求可以得到满足,以及频率利用更加有效。 近l o 年来固定电话和移动通信高速发展,信道使用效率成为一项关键因素,这促使传输 语音的压缩技术即语音编码技术的不断发展。即使在今天,由于使用光纤。有线通信的 带宽变得更廉价,在有线通信以及移动通信、卫星通信和掌上电脑的语音传送应用中, 语音编码依旧扮演着重要的角色。 常用的语音编码方法可分为波形编码、参数编码和混合编码【2 1 。 ( 1 ) 波形编码t 将时问域信号直接变换为数字代码,力图使重建语音波形保持原语音 信号的波形形状。波形编码的基本原理是在时问轴上对模拟语音按一定的速率抽样,然 后将幅度样本分层量化,并用代码表示。译码是其反过程,将收到的数字序列经过译码 和滤波恢复成模拟信号。如:脉冲编码调制( p u l s ec o d em o d u l a t i o n ,p c m ) 、差值脉冲编 码调制( d p c i v l ) 、增量调制( d m ) 以及它们的各种改进型自适应差分编码( a d p c i v i ) 、自适 应增量调制( a d m ) 、自适应差值脉冲编码调制( a d p c m ) 、自适应传输编码( a d a p t i v e t r a n s f e rc o d i n g ,a t c ) 和子带编码( s b c ) 等都属于波形编码技术。 ( 2 ) 参数编码:参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域 提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列 经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音 信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号 的波形同原语音信号的波形可能会有相当大的差别。如:线性预测编码( l p c ) 及其它各种 改进型部属于参数编码。该编码比特率可压缩到2 k b i t s - 4 8 k b i t a ,甚至更低,但语音质 量只能达到中等,特别是自然度较低。 ( 3 ) 混合编码:混合编码使用参数编码技术和波形编码技术,计算机的发展为语音编 第2 页 国防科学技术大学研究生院学位论文 码技术的研究提供了强有力的工具,大规模、超大规模集成电路的出现,则为语音编码 的实现提供了基础。8 0 年代以来,语音编码技术有了实质性的进展,产生了新一代的编 码算法,这就是混合编码。 波形编码比较简单,失真最小,方法简单,但数码率比较高。参数编码的编码速率 可以很低,但音质较差,只能达到合成语音质量,其次是复杂度高。混合编码吸收了波 形编码和参数编码的优点,从而在较低的比特率上获得较高的语音质量,当前受到人们 较大的关注。如:多脉冲激励线性预测编码( m p l p c ) 。规划脉冲激励线性预测编码 ( k p e l p c ) ,码本激励线性预测编码( c e l p ) 等都是属于混合编码技术。c e l p 编码采用合 成分析( a n a l y s i s - b y - s y n t h e s i s ) ,是一种典型的混合编码方案。在中低压缩编码速率 h 8 - 1 6 k b s ) 下能够给出高质量的合成语音,且抗噪声和多次转接性能好,是目前移动通 信系统和v o l p 系统中应用最多的一类语音编码算法 2 3 1 宽带语音编码标准主要有以下几种l l o j : ( 1 ) 1 6 b i t 线性p c m 采样率为1 6 k h z 的宽带语音,不经压缩的1 6 b i t 线性p c m 编码比特率为2 5 6 k b s 。这 种编码提供了最高的质量和动态范围以及最低的计算的复杂度。但p c m 编码直接对声 音信号采样量化,编码效率低。 ( 2 ) g 7 1 1 g 7 1 1 是电话网中广为使用的6 4 k b i t sp c m 编码,属波形编码。g 7 1 1 是基于采样的 编解码器,属于波形编码,它有u 律和a 律两种形式。g 7 1 1 编解码器计算的复杂度很 低,能提供良好的语音质量,其主要缺点是需要6 4 k b i t s 的带宽。 ( 3 ) g 7 2 2 ( s b a d p c m 子带自适应差分脉冲编码调制) g 7 2 2 于1 9 8 8 年标准化,是第一个用于1 6 1 d - i z 采样率的标准化宽带语音编码算法。 该编解码器将1 6 k h z 的频带分为两个子频带,并用自适应差分脉冲编码调$ 1 ( a d p c n 0 算法在子频带中进行编码。该算法的计算复杂度适中,在6 4 k b s 的码率下能提供几乎透 明的质量,时延小;它的缺点是码率较高,限制了它的应用范围。g 7 2 2 编解码器在1 6 k i - i z 频率上接收1 6 位数据( 带宽从5 0 h z 至7 k h z ) ,并将其压缩为“、5 6 与4 8 k b i t s 。 ( 4 ) g 7 2 2 1 g 7 2 2 1 于2 0 世纪9 0 年代末开发,可实现比g 7 2 2 编解码器更低的比特率以及更大 的压缩,编码速率为2 4 k b s 或3 2 k b s 。在3 2 k b s 时的话音质量与g 7 2 2s b - a d p c m 在 6 4 k b s 时相同。目前大多用于电视会议系统。g 7 2 2 1 使用了一种变换编码方案( m o d u l a t e d l a p p e d t r a n s f o r m ,m l t ) 。帧长为2 0 m a 。是一种比较复杂的编码器,其缺点是无法避免包 丢失。 ( 5 ) g 7 2 2 2 ( a m r - w b 自适应多速率宽带编码) a m r - w b 是一种最初为g s m 无线网络定义的宽带编解码器,现己扩展到有线系统。 由于其计算强度很大,因此要充分利用多年来显著提高的d s p 处理能力。a m r - w b 建 立在c e l p 语音编码器基础上,音频带宽为5 0 - - 7 0 0 0 h z ,在6 6 2 3 8 5 k b i t s 间提供9 种语音编码( 分别是6 6 0 ,8 8 5 ,1 2 6 5 ,1 4 2 5 ,1 5 8 5 ,1 8 2 5 ,1 9 8 5 ,2 3 0 5 ,2 3 8 5k b i t s ) 。在更高的 比特率时质量会更高,它使用多速率a c e l p 语音编码,帧长2 0 m s 。它已被3 g p p 选定为 g s m 和3 g 无线w - c d m a 的宽带编码器,其不足之处是算法复杂度很高。 ( 6 ) m p e g - 4 a u d i o m p e g - 4 研究比较了现有的各种音频编码算法,支持2 6 4 k 的自然声音编码,其 第3 页 国防科学技术大学研究生院学位论文 中6 2 4k b i t s 的语音编码,一般采用c e l p 编码技术。m p e g - 4 标准制定了广泛多样的 技巧和模式,可配置工具箱。而且译码表也可根据应用来设置。采样率为1 6 k h z 时可使 用l o i n s 或2 0 m s 的帧长。这种算法的复杂度很高,时延随模式和比特率不同而从 1 8 7 5 - 4 1 7 5 m s 变化。m p e g - 4 的c e l p 算法提供不同的比特率,以及比特率、带宽、复 杂度的可测量性。 近年来,码激励线性预测( c e l p ) 1 2 】技术在窄带语音压缩中的应用已日趋成熟并 可在4 8 - 9 6 k p s 码率范围内获得较好的语音质量。c e l p 算法最初用于军事上的短波保 密通信系统,后用于商用通信系统,并发展成为由多种改进型c e l p 算法组成的算法族。 c e l p 算法族是近十多年来应用最成功的一类语音压缩编码算法,已被许多语音编码标准 所采用【钔,比如:美国联邦标准f s l 0 1 5 、f s l 0 1 6 都采用c e l p 编码方法,主要用于高质 量窄带语音的保密通信;使用至今的g s m 蜂窝系统由欧洲于1 9 9 1 年提出,也是采用 c e l p 算法进行语音编码;1 1 r u - t 于1 9 9 2 年提出的g 7 2 8 标准采用l d c e l p - 1 9 9 2 年 北美提出的蜂窝系统采用v c e l p 算法,码率为8 k b p s :1 9 9 3 年北美提出的c d m a 系统 采用q c e l p 算法,码率l - s k b p s 1 9 9 3 年日本提出的蜂窝系统采用v s e l p 算法,码率 6 8 k b p s :删t 于1 9 9 5 年提出的g 7 2 3 1 标准中采用两种编码速率,其中6 3 k b p s 码率 采用m p c e l p 算法,而5 3 i b p s 码率则采用a c e l p 算法,这两种码率下的音质都不错, 且时延可控制在3 7 5 m s 左右( 根据g 1 3 1 标准,要想不采用回声消除器单向延迟就必须 低于2 5 m s ;或者根据兀u 玎g 1 1 4 标准,高质量语音服务单向延迟必须小于1 5 0 m s ) ,被 认为是一种很不错的语音编码技术,并被成功应用于各种窄带的视频会议、可视电话等 产品中。c e l p 语音编码正在向更低速率和更高质量发展,已有方案表明,c e l p 有在 2 4k b s 这一传统声码器才能达到的编码速率上实现高质量编码的潜力。有理由相信, c e l p 算法将在中低速语音编码领域得到更广泛的应用,从而进一步推动现代通信技术 的发展。 把c e l p 技术引入宽带语音编码已经成为一种有益的尝试,如m p e g - - 4 中宽带语 音编码算法采用的就是c e l p 算法,使用该技术的最大优点就是可以在保证语音质量的 同时大量降低传输码率,提高压缩比。在现代通信系统如3 g 移动系统,无线v o m 系统 等的应用中,人们不仅需要高质量的终端语音,而且需要更宽范围的服务方式,因此更 加灵活的算法,如带宽扩展及不同复杂适应度需要的自适应算法为人们所需要。本课题 针对宽带语音编码的特点,研究c e l p 算法,并进行一定的改进,使之适应无线v o i p 系 统。 1 3 研究目的和意义 随着数字通信网络的飞速发展、数字信道连通性的不断扩大,诸如会议电视、可视 电话、语音信箱和多媒体信息等视听业务的需求量也在日益增长,广大用户对视听信号 质量的要求也在相应的提高。对于多年来惯用的带宽为3 0 0 h z - 3 4 0 0 h z 的话带语音,也 就是窄带语音【2 1 1 ,虽然已拥有了比较成熟的高效压缩编码算法,但由于频带窄,人们对 其质量已经不再感到满意。在各种视听业务中。人们不仅仅需要也听懂对方的语意,还希望 了解对方的情感和对方所处的环境中的其它声音,如音乐等。就是说,人们追求的是一种自 然的面对面的通信质量。 第4 页 国防科学技术大学研究生院学位论文 解决这一问题的有效方法之一是增加原始语音的带宽,将低频端降至5 0 h z ,而高频 端扩展至7 k h z 的语音,通常称之为宽带语音【2 5 l 。由于频带的扩展,语音信号质量由电 话质量提高到调幅( 舢巾无线电广播质量。对语音频带的扩宽不仅增加了传送语音的可懂 度和自然度,而且它还使得通信交流变得有透明感,受话者得以轻松的识别话音内容。 它的应用范围包括扬声电话、i s d n 会议系统、多点互动声像通信,以及特定信道中的 广播。所以说话带语音、宽带语音和音乐信号的区别不仅仅在于信号的频带宽度和动态 范围,使用者对它们的音质要求也是不同的。 宽带语音向用户提供高质量的语音服务,很好地做到了语音与数据服务的统一,对 于多年来惯用的带宽为2 0 0 - - 3 4 0 0 h z 的窄带语音虽然拥有了比较成熟的高效压缩编码算 法,但由于频带窄,人们对其质量已经不再感到满意,为此有必要进行宽带语音压缩编 码的研究。 1 4 论文的主要工作和结构 1 4 1 论文的主要工作 本文通过研究宽带语音编码方法,介绍使用分带实现宽带语音编码,对低子带信号 采用c e l p 编码方法,并针对传统算法的不足提出了基于零极点预测模型的c e l p 语音编 码算法;对高子带部分采用a d p c m 编码,最后设计和开发了基于局域网的p ct 0p c 的 i p 电话软件。 在开发p ct 0p c 的i p 电话软件前进行了资料的收集和整理,接着进行了系统分析、 系统总体设计、系统详细设计以及整个系统的实现。在开发中做的主要工作有: ( 1 ) 基于局域网的v o i p 系统分析,系统设计与实现; ( 2 ) 网络通信模块; ( 3 ) 音频采集与播放模块; ( 4 ) 音频数据压缩设计; ( 6 ) 音频数据包的发送与接收。 1 4 2 论文结构 全文组织如下: 第一章是绪论,分析了本文的研究背景,语音编码在国内外的发展现状,研究的目 的和意义,概要介绍本文所做的工作和文章结构。 第二章分析宽带语音编码的实现方法,对宽带语音编码的整带和分带实现进行对比 分析,采用分带实现宽带语音编码,对低子带采用c e l p 编码方法,对高子带信号用a d p c m 编码。 第三章阐述了码激励线性预测编码( c e l p ) 的基本原理及其所用到的基本技术,主要 包括线性预测、合成分析、知觉加权和矢量量化等,并在此基础上提出了一种基于零极 点预测模型的c e l p 语音编码算法,有效提高合成语音的质量。 第四章设计q m f 滤波器将输入宽带语音划分为高低两个子带,详细介绍高子带a d p c m 编码的实现方法。 第五章对测试结果进行了比较分析。 第5 页 里堕型兰茎垄奎茎里壅生堕竺竺堡苎 第二章第六章详细介绍了基于局域网的p ct op c 的i p 电话软件的设计和开发过程, 对v o i p 系统的结构有进一步的认识。 最后对全文作总结,并对语音编码今后的发展进行了预测。 第6 页 国防科学技术大学研究生院学位论文 第二章宽带语音编码方法 现代的宽带语音编码方案主要采用时域中的线性预测编码技术和频域中的子带编码 编码和变换编码技术,或者结合时域频域编码技术宽带语音编码越来越引起人们的关 注,许多组织在努力推出新的标准。新的算法不断出现,许多应用需要新的算法,这些 因素使得这个领域变得非常活跃。 2 1 宽带语音编码的基本方法 在标准的制定方面,i t u t 早在1 9 8 8 年就推出了宽带音频算法g 7 2 2 3 。对语音和 音乐信号,g 7 2 2 算法在6 4 k b s 的码率下能提供几乎透明的质量,并且时延小,计算复 杂度低。但该算法的码率较高,限制了它的应用范围,目前该算法成为了其他算法和标 准的编码质量的参考。自1 9 9 5 年来,i t u l 致力于推出码率在1 6 、2 4 、3 2 k b s 上的新的 标准,要求性能达到g 7 2 2 的要求。但由于各种候选算法没能全部达到i t u - t 规定的要 求。1 9 9 9 年i t u _ t 推出了一种基于a t c ( a d a p t i v et r a n s f o r mc o d i n g ) 的算法g 7 2 2 1 , 码率为2 4 和3 2 k b s 。该算法采用频域编码技术,使用m l t ( m o d u l a t e dl a p p e dt r a n s f o r m ) 方法。目前,1 1 1 j - t 正在推出码率在1 2 2 4 k b s 范围内的可变速率算法。i s o i p f a i4 标 准中制定的宽带语音编码算法,采用r p e m p e c e l p 方法,可提供1 4 - 2 4 k b s 的范围内不 同码率的算法。另外,欧洲电信标准协会e t s i 下属的s i g i i ( s p e c i a lm o b i l eg r o u pi i ) 正致力于在原标准化a m r ( a d a p t i v em u l t ir a t e ) 窄带系统中加入宽带a m r 锄躲一船) 编解 码器,a m r - w b 标准将应用于3 g 网络中l 。 频域方法中,如m p e g a u d i ol a y e ri i i 算法,它将频段分为z 2 个子带,使用 m d c t ( m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) 方法编码,码率在1 6 - 3 2 k b s 的范围。根 据测试,对语音信号,该编码器在3 2 k b s 的码率下其编码质量优于g 7 2 2 在6 4 k b s 码 率下的质量。飞利浦研究实验室的w u p p e r m a n n 提出了一种低延时的子带编码方法,码率 为3 2 k b s 。在3 2 k b s 码率下,q u a c k e n b u s h 提出了基于傅立叶变换的变换编码算法。 时域方法中,o r d e n t l i c h 和s h o h a m 扩展了& 7 2 8 标准,将1 6 k b s 的窄带语音编码 器扩展为3 2 k b s 的宽带语音编码器,扩展后的宽带编码器编码质量同g 7 2 2 标准工作在 6 4 k b s 时相当。在3 2 k b s 的这个码率,s a n c h e ze t a 提出了一种基于代数码激励l p 算 法,时延仅为2 m s 。在较低码率,r o y a n dk a b a l 开发一种1 6 k b s 的子带c e l p 编码器。 下面分别介绍线性预测编码和子带编码的编码方法。 2 1 t 线性预测编码 线性预测编码技术在电话或窄带语音的传输方面是非常成功的。i t u - t 、e t s i 以及 i s 0 j l p e g 等组织制定了一些语音编码标准。码率一般在每样点o 5 - 4 比特的范围内。这 一方法的关键点在于;一是语音产生过程中有效的自回归模型,二是对模型参数的计算 与量化上的精巧技术。语音波形的相关性,或者说其频谱的非平坦性使得我们能在一定 的假设下,利用理论上的编码增益,达到降低码率的目的。 下面介绍线性预测编码的原理。 第7 页 国防科学技术大学研究生院学位论文 在语音信号中存在两种类型的相关性,即在样点之间的短时相关性和相邻基音周期 之间的长时相关性利用线性预测( l p ) 方法对语音进行这两种相关性的去相关处理后, 得到的是预测余量信号。这样,语音的生产模型图如下: 台成语音 图2 1 语音生成模型示意图 上图是计入了上述两种相关性的语音生成模型框图。如果用预测余量信号作为激励 信号源输入长时预测合成滤波器l p ( z ) ,就可以恢复语音信号的长时相关性:再将其输 入短时预测合成滤波器l a ( z ) ,进行短时相关性的恢复,即可在输出端得到合成语音信号。 ( 1 ) 语音的短时分析 根据语音信号的生成特点,语音信号的短时相关性( 谱包络) 可以用一个全极点c a r ) 模型来描述,它的传输函数h ( z ) 为: 矾力2 高2 鬲1 万 弘d 智。 式中 口r ) 是语音信号的短时预测系数,p 是滤波器的阶数。 一般称日化) 为l p 综合滤波器,而称其逆滤波器一( z ) 为l p 分析滤波器。对于8 k h z 的采样率,p 的典型值在8 1 2 之间。a r 模型的预测系数h 是从语音信号中利用线性预 测分析的方法计算得到的。预测系数随时间逐帧更新,更新速率为3 0 - 1 0 0 次秒,即帧长 为l o - 3 3 m s 。 ( 2 ) 语音的长时分析 滤波器1 ,p ( z ) 是表示语音信号长时相关性的模型,其一般形式为: p ( z ) ( 2 - 2 ) 式中延时参数d 即等于基音周期, 6 ,) 为语音信号的长时预测系数。通常长时预测 系数的个数在1 ( q - - r = 0 ) 到3 ( q - - - r = 1 ) 之间。延时参数d 和系数倾 可以从语音信号中 直接提取,也可以从去除了短时相关性所得到的余量信号中提取。这些系数随时间更新, 更新速率为5 0 - 2 0 0 次,秒,根据具体编码方案的需要,也可以只进行短时预测,不进行长 时预测,而在l p c 激励模型中引入语音的长时相关性。 ( 3 ) 激励信号源 求得短时和长时预测信号后,将语音信号输入短时和长时线性预测( l p ) 逆滤波器 4 ( z ) 和p ( z ) ,以去除语音信号的短时、长时相关性,在其输出端得到类似于噪声的波形, 即l p 余量信号。如果是浊音语音段,余量信号中还往往存在以基音周期重复的尖峰脉冲。 与原始语音相比,余量信号的频谱起伏变化要小得多。这样对余量信号进行低速率编码 就成为可能。如果以l p 余量信号作为激励信号源,则可无失真地恢复语音信号。但为了 压缩数码率,不可能直接用l p 余量信号作为激励信号。采用什么技术来有效地、精确地 对余量信号进行编码,一直是在低速率下获得高质量合成语音的关键。也是近年来研究 第8 页 d z6 , 一 国防科学技术大学研究生院学位论文 中、低速率语音编码的热点之一。一般速率越低,恢复的语音质量越差,或者编码的复 杂度越大。语音编码方案的研究总是综合考虑编码速率、语音质量、复杂度和延时这四 个因素,从而找出适合实际需要的具体的最佳方案。但是概括来讲,线性预测编码的方 法是:在发端将预测系数( 通常称作边信息) 和余量信号进行编码后输出,在收端分别对它 们进行解码,合成语音信号。 2 1 2 子带编码 与时域线性编码相似,频域编码利用的也是信号的相关性即谱的菲平坦性。但是, 频域方法包括明显的谱分析和合成。由于频谱分析方法不是基于模型的,因此,采用频 域分析方法需要较高的码率。下面介绍频域方法中的子带编码。 子带编码是将输入信号分割成若干子带分别对各子带信号独立进行量化编码的方 式。把语音信号分成若干子带进行编码主要有两个优点。首先,如果对不同的子带合理 地分配比特数。就可能分别控制各子带的量化电平数日以及相应的重建信号的量化误差 方差值,使误差谱的形状适应人耳的听觉特性;获得更好的主观听音质量。由于语音的 基音和共振峰主要集中在低频段,它们要求保存比较高的精度,所以对低频段的子带可 以用较多的比特数来表示其样值,而高频段可以分配比较少的比特。其次,子带编码的 另一个优点是各子带内的量化噪声相互问独立,被束缚在自己的子带内,这样能避免输 入电平较低的子带信号被其他子带的量化噪声所淹没。 2 2 宽带语音编码的整带c e l p 实现 对于宽带语音编码的解决方案最典型的有两种,即c e l p 编码器或时频变换编码器。 时频变换编码器能够通过采用自适应比特分配和熵编码来达到足够的压缩率,不过这样 会导致较高的延时。然而更多的宽带语音编码器是基于c e l p 的,一种比较普通的思路 就是在已经很成熟的窄带c e l p 编码器上进行改进和调整,使之适应于宽带语音。这种 基于c e l p 的宽带语音编码器分成两类:整带c e l p 和分带c e l p 2 0 l 。整带c e l p 通常计 算复杂度较高( 高出相应窄
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 用户画像技术在建设工程招投标中的应用
- 2025年智能微电网在新能源社区中的应用模式创新与能源互联网技术创新报告
- 园林专业实习心得体会
- 公共安全技术进度计划与措施
- 2025年电商平台售后服务客户体验优化策略报告
- 城市立交桥绿化质量通病防治措施
- 茶文化之旅策划方案
- 电商知识产权治理:2025年平台合规建设与知识产权保护策略报告
- HCV感染者治疗的成本效益分析及其影响因素
- 故乡的风景教学课件
- 2025版金融业务合同委托管理协议
- 2025年新委托施工简单协议书
- 2025年残联招聘笔试大纲解读与备考指南
- 2025年宜都市总工会公开招聘乡镇工会协理员3人考试参考题库附答案解析
- 2025年社区工作者招聘考试(公共基础知识)试题及答案
- 教研组长经验交流会上教学副校长讲话:抓关键见实效干出值当的组长工作
- 《中国人首次进入自己的空间站》课件 八年级语文人教版
- 一年级开学第一课(一周常规训练)【课件】
- 2025-2026学年高一语文开学第一课
- 2025年官方兽医牧运通考试题库附参考答案详解(考试直接用)
- 设备维修过程管理课件
评论
0/150
提交评论