(通信与信息系统专业论文)音频丢包补偿算法研究.pdf_第1页
(通信与信息系统专业论文)音频丢包补偿算法研究.pdf_第2页
(通信与信息系统专业论文)音频丢包补偿算法研究.pdf_第3页
(通信与信息系统专业论文)音频丢包补偿算法研究.pdf_第4页
(通信与信息系统专业论文)音频丢包补偿算法研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(通信与信息系统专业论文)音频丢包补偿算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 网络音频业务随着因特网在全世界范围的普及和音频信号处理技术的发展而兴起, 越来越多的高保真音频通过压缩编码在i n t e m e t 上分帧传送。然而,基于i p 协议的数据 分组交换技术提供的是一种“尽力型服务 ,其传输环境是时变的,不可避免地导致分 组延迟和丢包,造成音频质量的急剧恶化。因此采取有效的丢包补偿技术对丢失数据包 进行预测估计对提升网络音频质量极其重要。 丢包补偿( p l c ) 就是利用所有可得到的信息,对丢失帧进行恰当的估计补偿,以便 隐藏丢失帧,使之不易被察觉,进而达到改善音频质量的目的。 本论文对音频丢包补偿算法进行了研究,所做的主要工作如下: ( 1 ) 综述了音频丢包补偿算法技术现状。 ( 2 ) 简要介绍了感知音频编码器的基本思想,重点阐述m p e g 2a a c 音频编码标 准基本原理,包括心理声学模型、滤波器组、量化编码、联合立体声、瞬时噪声整形模 块。 ( 3 ) 论述了本文丢包补偿算法需要的基本理论和知识,包括正弦加噪声模型、 m d c t 变换原理、正弦信号的m d c t 分析和伪谱。 ( 4 ) 构建了丢包补偿算法的基本框架,并给出了每个模块的基本原理。 ( 5 ) 结合m p e g 2a a c 标准,实现了本文提出的丢包补偿算法,并进行了算法仿 真。在此基础上,通过p e a q 及m u s h r a 测试对本文算法与已有算法进行了比较。 关键词:丢包补偿;感知音频编码;m p e g 2a a c ;正弦加噪声;m d c t ;伪谱 音频丢包补偿算法研究 r e s e a r c ho na u d i op a c k e tl o s sc o m p e n s a t i o n a b s t r a c t n e t w o r ka u d i ob u s i n e s si st h r i v i n gw i t ht h ew o r l d w i d ep o p u l a r i t yo ft h e i n t e m e ta n dt h e d e v e l o p m e n to fd i g i t a ls i g n a lp r o c e s s i n gt e c h n o l o g y ,m o r ea n d m o r eh i g h f i d e l i t ya u d i oi s t r a n s p o r t e do v e ri n t e m e tb yc o m p r e s s i o nc o d i n g h o w e v e r ,d a t ap a c k e ts w i t c h i n gt e c h n o l o g y b a s e do ni pp r o t o c o lp r o v i d e sa “b e s t e f f o r ts e r v i c e ”a n di t st r a n s m i s s i o ne n v i r o n m e n tv a r i e s m o m e n t a r i l y ,w h i c hi n e v i t a b l yl e a d st op a c k e td e l a ya n dl o s s i tc a n tm e e tt h er e q u i r e m e n to f r e a l t i m ea u d i od a t at r a n s m i s s i o n ,r e s u l t i n gi na s h a r pd e t e r i o r a t i o ni na u d i oq u a l i t y t h e r e f o r e , i no r d e rt oi m p r o v et h ea u d i oq u a l i t y ,i ti se x t r e m e l yi m p o r t a n tt h a tt a k i n ge f f e c t i v ep a c k e t l o s sc o m p e n s a t i o nt e c h n o l o g yp r e d i c t sa n de s t i m a t e st h ei n f o r m a t i o no ft h e1 0 s tp a c k e t p a c k e tl o s sc o m p e n s a t i o nc a nb ev i e w e da st h ep r o b l e mo fe s t i m a t i n gal o s tf r a m e w h i l e u s i n ga l la v a i l a b l ei n f o r m a t i o n ,s u c ht h a tt h eg e n e r a t e do u t p u tf i t s ,a ss m o o t h l ya sp o s s i b l e , b e t w e e nt h en e i g h b o r i n gf r a m e s t h em a i nw o r ko ft h i sp a p e ri s : ( 1 ) i n t r o d u c ep r i o rw o r ko np a c k e tl o s sc o m p e n s a t i o nt e c h n o l o g y ( 2 ) b r i e f l yp r e s e n tt h ek e m e lo fp e r c e p t u a la u d i oe n c o d e r ,m a i n l yf o c u so nt h ep r i n c i p l e o fm p e g - 2a a c ,i n c l u d i n gt h ep s y c h o a c o u s t i cm o d e l ,f i l t e r b a n k ,q u a n t i z a t i o n c o d i n g ,j o i n ts t e r e oa n dt e m p o r a ln o i s es h a p i n gm o d u l e ( 3 ) d e s c r i b et h eb a s i ct h e o r ya n dk n o w l e d g ew eu s ei no u rp a c k e t1 0 s sc o m p e n s a t i o n a l g o r i t h m ,i n c l u d i n gt h es i n u s o i d a lp l u sn o i s em o d e l ,m d c tt r a n s f o r l t lt h e o r y ,t h e m d c t a n a l y s i so fs i n u s o i d a ls i g n a la n dp s e u d o s p e c t r u m ( 4 ) s t r u c t u r et h e f r a m e w o r ko fo u rp a c k e tl o s sc o m p e n s a t i o na n di n t r o d u c ee a c hm o d u l e ( 5 ) c a r r yo u ta l g o r i t h ms i m u l a t i o ni nm p e g 一2a a cs t a n d a r d ,t h ea l g o r i t h mp r o p o s e di n t h i sp a p e ri sc o m p a r e dw i t he x i s t i n ga l g o r i t h m st h r o u g hp e a qa n dm u s h r at e s t k e yw o r d s :p l c ;p e r c e p t u a la u d i oe n c o d e r ;t n s ;m d c t ;m e p g 一2a a c i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:查勉叁塾盐! 堂堡! 至堕垂 作者签名:一虫翰趑 日期:皇幽年盟月j 卫日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 日期:盘盟年盟月日 日期:幺曼年上竺月辽甘 大连理工大学硕士学位论文 1绪论 1 1研究背景 随着i n t e m e t 在全世界范围的普及和数字信号处理技术的迅速发展,人类社会进入 数字化时代,人们的生活方式发生了巨大的变化。音频技术作为数字化时代的重要标志 之一,在人们的生活中起着不可忽视的作用。在技术发展和市场需求的双重刺激下,各 种音频共享和传播方式层出不穷。网上音乐更是形成了巨大的市场,使得各种原刨音乐 以及网络歌手的地位急剧飙升】。然而高质量数字音频记录媒体的代表产品如c d 唱片 和d a t 磁带口j ,其记录音频的码率分别为4 4 1 k h z 2 1 6 b i t s = 1 4 1 m b s 和4 8 k h z 1 6 b i t s 2 = 1 5 6 m b s ,这对于网络传输带宽十分有限的i n t e m e t 网络是无法承受的,因 此音频信号必须经过压缩编码并分帧传送,在接收端再解码恢复出原始语音。 面对巨大的市场潜力,各大通信研究机构不甘落后,推出各种音频压缩算法。 高 级音频编码( a d v a n c e da u d i oc o d i n g ,a a c ) 作为m p 3 的准继承者,是由美国a t & t 电讯 公司、杜比实验室、富朗霍夫学院集成电路等公司联合开发的,并于1 9 9 7 年形成i s o 1 3 8 1 8 7 国际标准,当时被称为m p e g 2a a c ,是作为m p e g 2 标准的延伸。随着m p e g 一4 音频标准在2 0 0 0 年成型,m p e g 2a a c 也被作为它的编码技术核心,同时加入了一些 新的编码特性,所以现在又叫m p e g 4a a c o 。作为新一代编码方式【4 j ,a a c 的标旗词 “s t o r el e s s ,h e a rm o r e ,意思是“存储的更少,听到的更多”,很好地概括了其特点: 在压缩率和音频质量方面都有很好的表现力,在每声道6 4 k b p s 码率下承诺c d 质量。 在多媒体应用中发现,与视频质量和音视频同步相比,音频质量显得更加重要。由 于婵网络本质上属于尽力型【5 j 的网络,在分组音频应用中的音频质量,主要考虑延迟和 丢包。实时音频应用可以忍受的端到端的延迟存在一个上限( 从发端到收端或者从收端 到发端) 。对交互式语音应用,最大允许端到端延迟为2 5 0 到5 0 0 m s 。早期研究表明l a n s 以及校园网,其中网络导致的时延、延迟变化相对比较小;大部分端到端的延迟通过不 同的终端被累积。同样,语音信号可以承受一定程度的丢包,丢失包可以直接通过零值 替代。然而如果丢包率超过一定的值,那么音频质量将受到损伤,必须采用合适的丢包 补偿技术对丢失包进行重建。算法支持的最大丢包率以及要求的丢包补偿算法依赖于编 码算法本身以及音频流的采样频率。一个音素( 语言体系中的最小有意义单位) 的典型长 度为8 0 l o o m s 。当丢包的持续时间长度超过一个音素的长度时,将改变一个词的意思。 在i p 网络中,延迟和丢包依赖于网络中的其他节点情况,所以无法预知。i n t e m e t 下 实时音频传输过程【6 】( 图1 1 ) 如下:音频信号经过声电转换和模数转换成为离散数字信 音频丢包补偿算法研究 号;数字信号经过编码器转换成编码码流,并按照网络传输要求分割成组( 包) ,然后通 过网络传输接口进入i n t e m e t :如果数据在i n t e m e t 中正常传输,则收端的网络接口将接 收到全部数据包;这些数据包从收端的网络接口出来后被重新拼接成编码码流进入解码 器,解码器利用接收到的数据在输出端重建出声音的离散数字信号,重建信号最终经过 数模转换和电声转化,就能被人耳感知。但在实际过程中由于存在分组丢失现象,某些 分组在传输中丢失,那么与此相对应的信号波形就不能直接由解码器重建出来,这样整 个重建的信号波形中就会有许多“缺口”( g a p ) ,使接收端重建的语音信号质量受到损 害。近来已经开发了多种音频质量提升工具,实验结果显示它们对音频质量的改善有一 定的作用,然而,在许多音频应用中,音频质量依旧毫无起色。因此必须在收端采取合 适的丢包补偿技术,使音频质量损伤最小化。 在终端,延迟由硬件和软件两方面因素造成。在音频硬件方面,语音样值在发端通 过a i ) 转换器而在收端经过d a 转换器引入延迟。在分组音频应用中,软件处理延迟 也被引入。处理延迟与所使用的音频编码器相关。一些编码器,如p c m 编码器具有较 小的复杂度及计算延迟,然而另外一些,如g s m 编码器,要求大量的运算,导致重大 的处理延迟。收发端都具有语音样值缓冲区,不管是音频硬件还是分组音频软件缓冲延 迟均被引入。因为终端必须为运行在其中的其他进程提供服务,延迟也由于操作系统引 入。 综上所述,由于分组交换网络状况的时变性以及终端软硬件的处理延迟,随机延迟 和丢包不可避免,因此导致收端音频质量的大幅度下降。为了提升网络音频质量,必须 采用合适的丢包补偿算法对丢失音频数据包进行估计补偿。 原始音 频信号 图1 - 1 实时音频传输框图 f i g 1 1 b l o c kd i a g r a mo fr e a l - t i m ea u d i os i g n a l 建原始 信号 1 2 感知音频编码介绍 音频压缩编码技术的发展,一直是在用尽可能低的比特率获得尽可能好的音频质量 的矛盾中发展的。比特率实质上反映的是频带宽度,降低比特率实质上是压缩频带宽度。 大连理工大学硕士学位论文 当然随着比特率的降低,相应的算法延迟时间和计算复杂度也要增加。图1 2 显示了感 知音频编码器【7 - 9 的基本框图。典型地,输入信号是一个音频p c m 信号。信号通过一个 分析滤波器组,例如p q m f 或者m d c t ,完成时频域转换。然后将频域数据进行量化 编码,形成比特流。量化过程通过一个比特分配模块进行控制。比特分配模块用来最大 化总的信噪比( s n r ) 与每个数据块的信掩比( s m r ) 差值。心理声学模型模块分析输入信 号,决定每个频率成分的掩蔽等级并计算信掩比( s m r ) 。比特分配模块基于信号能量和 相应的信掩比( s m r ) 分配一定数量比特数用于编码数据块。编码比特流包括编码音频数 据,例如比特数目,可变因子,比特分配。另外还有其他控制参数,例如块长度,窗类 型,用于告诉解码器如何解码编码比特流。同步字,采样率,码速率也被编码在数据头 中传送至解码端。最后,错误校正,同步信息以及其他的附加数据也被编码至数据流中。 p c m 图1 2 感知音频编码框图 f i g 1 2 b l o c kd i a g r a mo fap e r c e p t u a la u d i oe n c o d e r 特流 感知音频解码基本框图示于图1 3 中。首先,编码比特流经过比特流解包,获取音 频数据,控制参数,附加数据。比特分配信息用来对音频数据进行反量化并尽可能恢复 原始音频数据的频域信息。重构的频域数据包含量化噪声,但是如果心理声学模型有效 的话,噪声将不会被人耳感知,或者由于数据率的限制尽可能不为人耳感知。频域数据 通过合适的合成滤波器组,例如p q m f 或者i m d c t ,转换成时域p c m 音频数据流。 值得注意的是心理声学模型以及相应的比特分配模块仅存在于音频编码系统的编码端。 当然也存在例外情况,如a c 3 ,比特分配模块在编码端以及解码端均存在,在这种方 法中,最小化了比特分配所需要传送的附加信息,然而增加了解码器的复杂度。对不等 业务来说,这是不合理的,因为只需要一个编码器,而需要复制大量的解码器投入商用, 应尽量降低解码器的复杂度,以便降低成本。 1 9 8 8 年i s o i e c 标准化组织成立了运动图像压缩编码组织,简称m p e g ( m o v i n g p i c t u r ee x p e r tg r o u p ) ,正式名称是i s o i e c j t c l s c 2 9 w g l l ,主要致力于制定运动图 像的压缩编码标准,其第三部分就是音频编码压缩标准。虽然m p e g 标准最初目标是 音频丢包补偿算法研究 为数字存储媒介( d s m ) 进行视频及其伴音的编码,但实际上m p e g 标准己经成功应用 在很多地方,包括d a b 、d v b 、机顶盒以及网络流媒体和便携式音频播放等。 数据及可变 重建子 编噤匕特i 一,带宽因 带数据一 解码p c m 音 坠丌磊磊磊磊订二“磊磊4 二荔秽 图1 3 感知音频解码框图 f i g 1 3b l o c kd i a g r a mo fap e r c e p t u a la u d i od e c o d e r m p e g 音频压缩标准在数字音频的发展中占有很重要的地位。m p e g 最早的标准 m p e g 1 ,由国际标准化组织在1 9 9 2 年完成,并制定成i s o i e cl l1 7 2 标准。它的音频 部分分为三层( l a y e r ) ,从l a y e r - 1 到l a y e r - 3 ,提供逐级增进的音频质量,与此同时复杂 度也逐级增高:l a y e r 3 提供具有最高的复杂度,提供最好的音频质量,即是被人们广 泛所知的m p 3 。m p e g 1 设计的最大比特率( b i tr a t e ) 为1 5 m b p s ,规格中分剐规定了影 像压缩与声音压缩,v c d 即是使用m p e g 1 的规格。 随着时间的推移,m p 3 越来越不能满足人们的需要,比如压缩率低,音频质量也不 是很理想,而且只有两个声道,于是富朗霍夫学院集成电路( f r a u n h o f e r i i s ) 与美国a t t 电讯公司、s o n y 、杜比实验室和n o k i a 等公司展开合作,共同开发出了被誉为“2 1 世纪的数据压缩方式”的a d v a n c e da u d i oc o d i n g 1 0 l l 】( 简称a a c ) 多声道数码音频压缩 编解码音频格式,以取代m p 3 的位置。 a a c 音质接近c d ,并采用理论分辨率更高的滤波器组,采样频率选择性很高,达 到了很高的压缩率,并可大幅降低传输时间和减少存储空间,适合新一代的音频产品应 用,a a c 的主要特点如下: ( 1 ) 提高了压缩率:可以以更小的存储空间获得更高的音质; ( 2 ) 支持多声道;可提供最多4 8 个全音频声道; ( 3 ) 更高的采样频率:最高支持9 6 k h z 的采样频率; ( 4 ) 较好的解码效率:解码播放所占的资源更少; 一4 大连理工大学硕士学位论文 1 3 音频丢包补偿概述 丢包补偿就是利用所有可得到的信息,对丢失帧进行估计,以便产生的输出音频和 前后帧尽可能平滑,改善音频质量。尽管已经提出了许多音频丢包方法【l 玉1 3 】,这些方法 都是在产生的隐藏音频质量和执行代价之间进行权衡。例如,用静音或者前帧音频信号 替代的方法复杂度低但是效果也比较差。基于源滤波器模型的高级技术代表了另一个极 端,它们有更好的音频质量但是在运算复杂度,存储容量和延迟方面代价极高甚至不能 被接受【1 4 16 。对a a c 来说,丢包补偿可以描述为从先前或者未来的帧系数估计丢失帧 m d c t 系数的过程。有许多有不同丢包隐藏质量和运算复杂度的m d c t 系数估计方法。 包括简单的包重复( m p 3 标准建议) 技术,工作在压缩域适用于较高丢包率的更为复杂的 方法,包括统计插值( s i ) 算法【1 。丌,该方法通过将每个时间轨道的系数与给定频率位置相 对应进行压缩( m d c t ) 域插值恢复丢失帧谱信息;其他的算法如m a p e s c m f 硝j 以及 g a p e s 1 9 】插值算法在d s t f t 域进行。上述方法按照复杂度升序列举,恢复音频质量也 随之提升,其中d s t f t 域的g a p e s 算法提供最好的结果。它的优越性主要归功于使用 复数频谱,它对信号的表示变动更小,然而在m d c t 域帧与帧之间的系数符号在每个 频率位置都发生急剧的变动。然而先从m d c t 域到m d t f t 域的转换,恢复出丢失帧的 m d t f t 信息后再转化到m d s t 域,这需要巨大的运行代价,复杂度极高。 近来大量文献进一步对音频丢包补偿算法进行研究。文献1 2 0 j 将基于d s t f t 变换的 丢失帧幅度和相位估计插值算法( g a p e s ) 引入到m d c t m d s t 联合域,将m d c t 变换 系数看作是d s t f t 变换系数的实部,而m d s t 系数为d s t f t 变换系数的虚部,通过 从m d c t 系数直接推导m d s t 系数,从而在保证丢包补偿质量的同时达到简化g a p e s 算法的目的。尽管如此,从m d c t 系数到m d s t 系数的转换依旧需要进行极复杂的矩 阵运算,无法满足实时解码的要求,与所取得的音频质量改善相比,得不偿失。文献1 2 l j 基于重复前帧的思想,指出利用m d c t 的t d a c 特性解码的信号经过5 0 的重叠 相加来去除混叠。因此如果( o n l yl o n gw i n d o w ) 长窗类型帧丢失不会造成音频数 据段空隙,不需要做任何处理;对其他产生空隙的丢失帧,仅采用模式匹配的方法对空 隙部分进行补充即可,然后对恢复后的音频数据两端进行平滑处理即可。然而该方法十 分简单,然而其做的工作很少,效果与简单的静音填充方法只略有改善。文献【r 2 2 j 指出除 了m d c t 系数幅度对正确解码音频数据重要外,其符号信息也十分重要,提出在编码 端额外传送关键m d c t 系数的符号信息,从而当帧丢失时帮助解码端正确解码音频数 据流。然而该方法必须增加传输带宽,这在许多情况下是不被允许的。文献 2 3 - 2 4 假定前 后帧信号具有短时准静态特性,当丢帧发生时,用正确解码的前帧时域音频信号基于短 音频丢包补偿算法研究 时傅立叶变换进行正弦分析合成系统恢复出当前帧的音频信号。该方法运算量巨大,无 法实时实现。 3 g p pa a c 核心解码器的f l c 模块【25 】采用成形噪声插入的方法,在保证适中的错误 隐藏质量的情况下具有较低的运算复杂度。它通过在丢失帧附近填充噪声模型来估计 m d c t 系数。尽管这种技术在处理类似噪声的信号效果较好且运算量也小,但是对谐音 成分为主的音频信号,该方法效果不尽如人意。 为了增强音频隐藏的质量,人们认识到必须在源信号中加入处理谐音成分的可实现 技术。子带域估计方法作为种有效的机理用来估计m d c t 系数的正弦成分。过去两 帧的m d c q 系数被划分成相同带宽的两个子带,并通过合适阶的i m d c t 转换为子带样 值。从子带样值的统计特性可以得出一个线性预测器,用丢失帧的m d c t 系数预测子 带样值。然后被预测的子带样值被转换回m d c t 域。该算法包括一个合适的控制算法, 该算法设计用来决定是否给定的频带属于正弦成分还是噪声类似成分,并且在两种实现 技术之间切换。尽管子带域预测足够处理源信号中的正弦成分,但是从m d c t 系数到 子带域样值转换以及再反变换要求大量的运算。 1 4主要研究内容及篇章结构 本文深:入讨论了感知音频编码器的原理,对m p e g 2a a c 先进音频编解码器的主要 算法模块进行了详尽的讨论。在此基础上,结合正弦加噪声模型提出一种有效的音频丢 包补偿技术,以改善由于网络丢包引起的音频质量下降。最后,进行算法仿真,并与已 有算法进行了比较。 本论文各章节内容安排如下: 第二章首先分析m p e g 2a a c 音频编码标准的基本编解码流程及主要特点,然后详 细分析m p e g 2a a c 的关键技术。 第三章介绍论文采用的a a c 丢包补偿中采用的基本理论和知识。 第四章详细阐述丢包补偿算法设计。 第五章对论文提出的丢包补偿进行实现及评价。 大连理工大学硕士学位论文 2m p e g 2a a c 编解码原理 由于其卓越的性能和质量,高级音频编码( a d v a n c e da u d i oc o d i n g ,a a c ) 己成为 m p e g 一4 规范的核心,同时它还是因特网、无线网以及数字广播网中新一代音频数字编 码器的选择。高级音频编码比老式的诸如m p 3 格式文件的压缩率更高,并且其音质可 以同未压缩的c d 相媲美。m p e g 4a a c 更是成为存储和传输能力受限的数字音频系统 的首选并且己被指定作为3 g 无线终端的高品质通用编码器。本章主要介绍 m p e g 2 a a c 的压缩原理及关键技术。 2 1m p e g - 2a a c 编解码流程 作为新一代的音频编码标准,a a c 提供了很多新的功能,编码复杂度高于m p 3 。a a c 编解码器采用模块化结构设计,主要包括增益控制、滤波器组、时域噪声整形( t n s ) 、 联合立体声编码、频域预测、量化和编码等模块。m p e g 2a _ a c 的编解码器框图如图 2 1 所示。 其编码流程如下: 首先,对输入的p c m 信号分帧,划分为每帧每声道1 0 2 4 个样值,再同前一帧的 1 0 2 4 个样值组合,得到2 0 4 8 个样值。加窗后的2 0 4 8 个样值通过改进的离散余弦变换 ( m d c t ) ,输出1 0 2 4 个频谱分量。再将这些频谱分量依据不同的采样率和变换块类型 划分成数十个不同带宽的比例因子频带,比例因子频带的划分尽可能地拟合人耳的临界 频带。 心理声学模型与m d c t 并行工作,它沿用了f f t 作为心理声学模型的时频分析工具, 着重分析临界频带间的掩蔽效应,以不可预测性度量来衡量信号的音调倾向性,并进一 步改进了p e ( 感知熵) 的计算过程。通过对输入信号进行一系列计算,估算出每个比例 因子频带的最大允许失真x 曲。x m 抽对噪声进行整形,它体现了心理声学模型对编码质 量的要求。心理声学模型的另一个重要输出参数是该帧数据进行m d c t 变换的块类型: 是长序列、短序列抑或是两种过渡序列,使用哪种序列取决于输入信号的特点。 在预回声控制方面,除了利用信号自适应的长短块切换和心理声学模型进行前回声 控制外,a a c 还使用了一种新的称为时域噪声整形的技术,简称为t n s 。t n s 的作用 机理在于利用时域和频域信号的对偶性。 为了进一步去除帧间的相关性,a a c 提出了频域预测的概念。不同于t n s 的帧内预 测,该频域预测为帧间预测,对相邻帧相同频率位置的频谱分量进行预测编码,且只对 长序列有效。 音频丢包补偿算法研究 在立体声编码方面,a a c 既支持i v l j s ,又支持l r ,两者的选择准则是看比特数的 消耗。基于人耳对高频的定位主要取决于能量的特点,采用了强度立体声( i s ) 技术,对 耦合声道只传一路包络。 图2 1m p e g - 2a a c 编解码器 f i g 2 1 i v l p e g 一2a a ce n c o d e ra n dd e c o d e r 号 经过前述多个模块的预处理后,量化和编码阶段才真正降低数据量。对于短序列, 量化和编码前需对比例因子频带进行分组和交叉以提高编码增益。使用非均匀量化来改 善小信号的信噪比,把比例因子频带合并成分区后再对频谱分量进行1 1 重组的霍夫曼编 码。量化和编码使用一种两层嵌套循环算法,以权衡码率和失真之间的矛盾。最后,进 行比特流封装,得到压缩后的码流。 其解码流程如下: 一8 一 大连理工大学硕士学位论文 解码时,a a c 编码声音数据流首先要经过比特流格式分析器,将比特流中频谱数 据和重建信息部分分开。根据解码信息对量化频谱数据进行霍夫曼解码,可变因子部分 也通过对应的霍夫曼码表进行差分解码,解码数据进行逆量化处理。反量化后的数据与 解码得到的比例因子相乘,得到实际的频谱值。 对于不同的配置,有些模块是可选的,比如t n s 模块,预测模块,联合立体声模 块,增益控制模块。如果编码器中用到了t n s 模块,反量化后的数据也要经过t n s 滤 波器组。在强度立体声模式下,根据是否使用声强耦合还是m s 编码,通过对应的矩 阵变化,解码出左右声道的数据。最后得到的数据通过滤波器组,将频域上的信号转换 到时域上去。滤波器组对数据进行i m d c t 变化,使用正弦窗还是k b d 窗要根据解码 信息进行选择,编解码过程中使用的窗函数必须一致。最后得到的数据就是可以直接播 放的p c m 数据。下面就对a a c 的各个算法模块进行介绍。 2 2 心理声学模型2 m p e g 音频编码的目的是提供无损的感知音频质量。换句话说,m p e g 编码器的输 出信号与其输入信号在统计上相一致。为了在低码率情况下达到这个目标,m p e g 音频 编码器利用心理声学模型理论。在编码端,对输入信号进行逐帧分析,确定信号成分的 掩蔽能力。基于掩蔽阈值的计算,每一帧分配合适的比特数目以便最好地表示信号。在 高码率情况下,心理声学模型【2 6 】可以直接略过,而将分配可用比特的任务留给基于信号 谱成分特性的迭代过程来完成。m p e g 2a a c 采用心理声学模型2 ,其框图示于图2 2 中。注意有两条并行的计算路径:掩蔽能量和谐音指数。 2 2 1 分析阶段 心理声学模型的输入是某个时间段内的音频信号时域表示,而输出是相应时间段信 号频谱区间的信掩比( s m r ) 。基于这个信息,计算每块输入信号的比特分配。为了提供 准确的输入信号频域表示形式,一个离散傅立叶变换与主音频编码并行进行,完成信号 从时域到频域的映射。人们可能会想到直接使用p q m f 的输出信号来做为时频域的转 换以便降低算法复杂度。但是在估计掩蔽阈值的过程中,我们的目的是最大可能地精确 表示原信号。诸如亚采样这样的问题在主编码流程中时频域的映射设计中起着很重要 的作用,但是它对当前分析阶段的频域表示却没有丝毫作用。另一方面,频率分辨率不 够和潜在的混叠将导致心理声学模型毫无意义。 m p e g 心理模型的第一步是将心理声学模型和主编码音频数据时间上保持一致。这 个过程中必须考虑滤波器组的延迟以及需要的时间延迟以便心理声学分析窗以将要编 码的数据为中心。模型2 对信号采样值做汉宁窗加窗f f t 变换。f f t 窗长是1 0 2 4 点。 音频丢包补偿算法研究 f f t 输入块的中心和主数据通道块第一部分和第二部分的数据中心相一致。模型2 使用 f f t 分析的输出结果进行掩蔽曲线以及各编码子带的掩蔽比计算。每个子带选择使信号 信掩比较高的,或者掩蔽阈值较低的结果。 输入信号 子带不可预测性 扩展的子带不可预 测性 子带谐音指数 子带信号能量 扩展的子带信号能 量 子带掩蔽等级 每个子带的信掩比 ( s m r ) v 比特分配 图2 2 心理声学模型2 f i g 2 2p s y c h o a c o u s t i cm o d e l2 2 2 2 声压级计算 模型2 中谱线被分成掩蔽计算分区,它的宽度大约等于临界带宽的l 3 或者1 条f f t 谱线宽度。对每个分区,每个掩蔽者声压级( s p l ) 通过分区中能量谱求和得到。 信号帧的总掩蔽能量通过将信号中每个掩蔽者和扩散函数进行卷积来计算。这个过 程等价于将每个掩蔽者在频域进行扩散并将相应的能量加一起。 大连理工大学硕士学位论文 2 2 3 扩散函数 模型2 中以分贝( d b ) 为单位的基本扩散函数b ( c l z ) 为 b ( a z ) = 1 5 8 1 11 3 8 9 + 7 5 宰( 1 0 5 木出+ 0 4 7 4 ) 一1 7 5 木4 1 0 + ( 1 0 5 半出十0 4 7 4 ) 2 + 8 事m i n ( o ,( 1 0 5 幸沈- 0 5 ) 2 - 2 木( 1 0 5 木d z 一0 5 ) ) ( 2 1 ) 其中,出为掩蔽信号和被掩蔽信号之间的b a r k 距离。注意出 0 表示掩蔽信号比被 掩蔽信号频率更高。 模型2 中扩散函数通过一个归一化过程修正,该过程保持零频和高频截止处的能量 不变。即,f f t 的正频率部分的平坦谱和b ( d z ) 做卷积。经过卷积后的频谱能量由于频 率超出范围的能量缺失而衰减。扩散函数b ( d z ) 通过调整来避免这种衰减,具体做法是 将卷积后的能量谱能量与平坦谱的能量相除。考虑人耳对声音的感知频谱范围边界处绝 对阈值的作用,归一化过程可能不那么重要。为了得出全局掩蔽阈值,归一化后的信号 能量在每个分区中必须经过某种程度的衰减,衰减程度根据该分区中频谱的谐音指数确 定。 2 2 4 谐音指数 每个分区的谐音指数根据当前帧信号频谱多大程度上可以从前两帧信号频谱预测 得到进行计算。对第m 帧,第k 条谱线,信号幅度a 。( 尼) ,相位九( 七) ,根据前两帧的值 做如下的线性插值进行预测【2 7 】: 4 m ( 忌) = 么m l ( 七) + 4 m l ( 七) ia r a _ 2 ( 七) ) ( 2 2 ) 元( 七) = 一l ( 后) + 一l ( k ) 一一2 ( 七) ) 其中,以( 七) ,元( 七) 代表预测值。 然后预测值经过如下计算转换为不可预测度: 二亟塑坠地笔黼斧塑型 ( 2 3 ) 其中,当前值能够被准确预测时c 。( 七) = 0 ,当预测值和当前信号能量差别很大时 c 。( k ) = l 。 不可预测度首先经过当前分区能量加权,得到分区的不可预测指标。将分区不可预 测性值与扩散函数进行卷积。卷积结果被转化成谐音指数,它是以分区为自变量的函数, 音频丢包补偿算法研究 其取值范围为0 l 。谐音指数的特性是高不可预测性取值趋近于零,低不可预测性取值 趋近于1 。注意,由于不可预测度和决定某一频率范围内的掩蔽能量的扩散函数进行卷 积,所以产生的谐音指数只能反映在该分区内占主导地位的掩蔽者的谐音度。 2 2 5 掩蔽阈值 由上述过程计算的每个分区的谐音指数确定归一化信号能量的偏移量分贝值a ( z ) 。 归一化能量值将谐音指数转换为全局掩蔽级。然后对a ( z ) 基于谐音指数进行线性插值。 对噪声掩蔽信号( 零谐音度) ,谐音指数为5 5 d b ;对谐音掩蔽信号( 谐音度为1 ) ,谐音 指数为一个频率相关的值j 然后将插值后的a ( z ) 和协议中定义的最小值进行比较,控制 立体声去掩蔽效应。最终选择较大的值作为偏移量。 2 2 6 掩蔽比计算 每个阈值计算分区的掩蔽级别和该分区中的绝对阈值比较,选择较大的作为掩蔽阈 值。对每个分区:通过分区掩蔽阈值除以分区谱线总数将掩蔽能量映射到每条谱线。最 后将掩蔽阈值和相应的能量谱密度映射到可变因子带上计算每个可变因子带的信掩比 ( s m r ) 。信掩比输出到比特分配模块用以确定每个可变因子带应分配的比特数。 2 3 增益控制 增益控制模块只用于s s r 框架中,其工作原理示于图2 3 中。 增益控制模块由一个p q m f 滤波器组,若干增益检测器和增益调节器组成。p q m f 滤波器组将每个声道的输入信号细分为4 个等带宽的频段,并作降采样处理。必要时, 可对每个滤波器组的输出信号进行增益调节,并利用改进离散余弦变换( m d c t ) 模块对 滤波器组的输出信号进行处理,产生2 5 6 ( 长窗) 3 2 ( 短窗) 个谱系数,总i , - t + 1 0 2 4 ( 长 窗) 1 2 8 ( 短窗) 个谱系数。增益控制工具独立地用于每个子带信号。 在解码器中,增益控制组件与编码器相同,但结构安排相反。可变采样率配置( s s r ) 根本特性就在于可以改变输出信号频带,可使输出信号的频带更窄,要获取更低采样率 的输出信号,只需简单地忽略p q m f 中的高频子带部分即可。可以产生输出带宽1 8 k h z , 1 2 k h z 和6 k h z ( 对应于忽略1 ,2 和3 个高频子带成分) 的信号。信号采样率可变随之带 来的好处是解码端的复杂性也随着信号的带宽的降低而得到降低。在编码端增益控制模 块以m d c t 窗长相同的时域输入信号序列作为输入,产生对应的增益控制数据以及调 节后的输出信号序列。 大连理工大学硕士学位论文 因为增益控制能对输入音频信号做某种程度的控制和衰减,调节音频信号动态范 围,使之更小。经过处理后,音频信号变为较平缓的信号,降低预回声( p r e e c h o ) 的发 生。 p q m f 分析合成滤波器组由下式给出: 矗。( 门) = 丢q ( ,z ) c 。s ( ( 尼+ 三) ( ,z + 三) 号) g 七( 玎) = q ( 聆) c 。s ( ( 七+ 三) ( n 一吾) 署) ( 2 4 ) ( 2 5 ) 其中,0 疗9 5 ,0 k 3 ,q ( n ) 在协议例中指定。p q m f 阶段跟随着增益检测器和 增益调节器。增益检测器产生指定增益调节频带的增益控制数据、调节信号段的段号、 每段中指示接受调节的信号下标和增益调整级别。注意输出的增益控制数据用于前一帧 的信号,因此增益检测器有一帧的延迟。在4 8 k h z 采样率情况下,增益控制器的分辨率 大约为o 7 m s 。增益控制器的步长为2 “,其中一4 以1 l ,可以使信号放大或者衰减。 增益调节器在每个p q m f 频带信号应用增益控制函数来实施增益控制。 窗形 增益控 制数据 无重叠的 时域信号 增益控制工具 叠接 增益补偿器 & 叠接 增益补偿器 & 叠接 增益补偿器 & 叠接 i p q f 图2 3m p e g 一2a a c 解码端增益控制模块 f i g 2 3 m p e g 2a a cd e c o d e rg a i nc o n t r o lm o d u l e p c m 音频数 据 避匿匿藤 h h f 一 f 丽一 丽 音频丢包补偿算法研究 在解码端,增益控制模块处于解码器的末端。由增益控制工具做出的后处理对 i m d c t 阶段输出的四个子序列做出增益补偿,接续子序列间做同步叠接相加,再经过 逆p q m f ( i p q m f ) 产生时域音频序列输出。解码端每个p q m f 子带的增益补偿都要经过 下列三个步骤: ( 1 ) 增益控制数据解码; ( 2 ) 增益控制函数计算; ( 3 ) 加窗以及叠接相加; 解码过程中,从比特流元素中抽取出增益控制数据,增益调节元素。根据这些信息计算 增益控制函数,并将结果与i m d c t 的输出相乘。接续子序列间做同步叠接相加。最后, i p q m f 将四个子带信号聚合在一起,形成合成输出信号。 2 4 滤波器组 m p e g 0 2a a c 系统编解码端滤波器组的功能就是将输入时域音频信号转化为内部频 域表示形式,解码端实施与之相反的逆过程。这个转化过程由常时m d c t 和i m d c t 变 换完成。变换块的长度n 取值为2 0 4 8 或者2 5 6 。由于窗函数对滤波器组的频率响应有 重大的影响,所以m p e o 2a a c 滤波器组设计中允许窗形状的切换以便能更好地与输 入音频信号相适应。窗序列由编码端决定并被传送到解码端。 2 0 4 8 点的长窗时域变换对信号具有较高的频域分辨率及编码效率,但是对具有密集 谐波分量的信号存在许多问题,导致音质恶化。我们知道,瞬态信号前数微秒量化噪声 扩散无法被瞬态信号本身掩蔽,这就造成预回声现象,即一个变换块内的量化误差在整 个时域内扩散开来,被人耳感知。m p e g 2a a c 系统通过对变换块长与信号状况自适应 调整来解决这个问题。准静态的信号采用长窗变换进行处理,而瞬态信号则通过具有更 高时域分辨率的短窗变换处理,它可以把量化噪声限制在时域上较短的范围内。长短块 之间采用过渡窗进行无缝连接,这样可以保持时域混叠消除( t d a c ) 特性,从而保证精 确重构。 m d c t 滤波器组的频率分辨率依赖于窗函数。很自然的选择是正弦窗,它满足 m d c t 完美重构条件。正弦窗对信号谐波成分提供较好的分辨率,对具有密集谐波成分 的信号具有较好的编码效率。然而,对其他类型的信号,衰减更大的窗函数可以提供更

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论