(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf_第1页
(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf_第2页
(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf_第3页
(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf_第4页
(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(通信与信息系统专业论文)抗丢包宽带音频编码算法的研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着有线和无线包交换网络的发展及其信道带宽的增加,人们希望用高质量 音频通信代替传统的语音通信。而实时音频通信在实际运营中由于网络拥塞、信 道干扰和噪声等原因,不可避免的面临丢包问题,从而导致音频的质量受到严重 影响。由于这些问题还远未有效解决,所以压缩音频在有线和无线信道上的可靠 传输臼益得到重视。 抗丢包宽带音频编码算法l d x 是一种新设计的面向实时通信的高质量 音频编码算法。它使用的多描述编码是一种在不可靠网络中传输信息的信源编码 技术,可以在不增加迟延的情况下,提供稳健的抗丢包的信源编码算法。 本文首先介绍了l d x 算法的基本原理,讨论了l d x 音频编码器的关键技术, 重点研究了抗丢包多描述算法以及算法的定点化、平台移植和优化。为了充分利 用t m s 3 2 0 c 6 4 x 系列定点d s p 的优势,提高程序效率和运行速度,需要将原来 开发的浮点l d x 程序转换为定点l d x 程序;同时,由于t m s 3 2 0 c 6 4 x 系列d s p 的有限寻址能力和对算法实时性的需要,使得我们必须在不影响音质的条件下, 简化每个模块的运算。通过采用各种技术进行算法和平台方面的优化,大大降低 了l d x 算法的实现复杂度,提高了程序的运行速度,最终在单片t m s 3 2 0 d m 6 4 2 上实现了l d x 编解码器算法。对该算法的定点结果和d s p 运行结果进行分析和 评估的结果从理论和实践两个方面论证了该定点编码算法可在提供高压缩比的同 时保证重建音频信号的质量、具有很好的实用价值、并即将在实际通信系统中投 入应用。 关键词:感知音频编码多描述编码多媒体通信抗丢包数字信号处理 a b s t r a c t w i mt h ed e v e l o p m e n to fw i r e da n dw i r e l e s sp a c k e tb a s e dn e t w o r k sa n dt h e i n c r e a s eo ft h ec h a n n e lb a n d w i d t h s i ti s e x p e c t e d m a t h i g h - q u a l i t y a u d i o c o m m u n i c a t i o n sw i 】1r e p l a c et h ec o n v e n t i o n a ls p e e c hc o m m u n i c a t i o n s h o w e v e r r e a l 4 i m ea u d i oc o m m u n i c a t i o n si no p e r a t i o n sa r ef a c i n gt h ep a c k e t - l o s sp r o b l e m s r e s u l t i n gf r o mn e t w o r kc o n g e s t i o n , c h a n n dd i s t u r b a n c ea n dn o i s e , a n ds oo n t h e s e p r o b l e m sh a v eb e e nm a k i n gs e v e r ea u d i oq u a l i t yd e g r a d a t i o n sa n da r ef a ra w a yf r o m b e i n gs o l v e d ;t h e r e f o r et h er e l i a b l et r a n s m i s s i o n so fc o m p r e s s e da u d i oo v e rt h ew i r e d a n dw i r e l e s sc h a n n e l sh a v eg a i n e dm u c ha t t e n t i o n 。 a n t ip a c k e tl o s sw i d e b a n da u d i oc o d h ga l g o r i t h m l d xi san o v e la n d e x c e l l e n ta u d i oc o d i n ga l g o r i t h mf o rr e a l - t i m ec o m m u n i c a t i o n s t h em u l t i p l e d e s c r i p t i o nc o d i n gr m d c ) u s e di nl d x i sas o u r c ec o d i n gt e c h n o l o g yw i t hw h i c h i n f o r m a t i o nc a nb et r a n s m i t t e di nu n r e l i a b l en e t w o r k s w i t h o u ta d d i t i o n a ld e l a y , m d c i sa b l et op r o v i d er o b u s ts o u r c ec o d i n ga l g o r i t h m sa g a i n s tp a c k e tl o s s e s 1 h ep r i n c i p l eo ft h ea n t ip a c k e tl o s s 谢d e b a n da u d i oc o d i n g a l g o r i t h mi s i n t r o d u c e df i r s t , t h e nt h ek e yt e c h n o l o g i e so fl d x , e s p e c i a l l ym u l t i - d e s c r i p t i o n a l g o r i t h m ,f i x e d - p o i n ti m p l e m e n t a t i o n ,p l a t f o r mp o r t i n ga n do p t i m i z a t i o na r ed i s c u s s e d t o 伽l ye x p l o i tt h ea d v a n t a g eo ft m s 3 2 0 c 6 4 xf i x e d - p o i n td s pa n di m p r o v et h e e f f i c i e n c yo f t h ep r o g r a m ,t h eo r i g i n a l l yd e s i g n e df l o a t - p o i n tl d x a l g o r i t h m sh a v et o b et r a n s f o r m e dt o f i x e a - p o i n t i nt h es a m et i m e ,i t i sn e c e s s a r yt o s i m p l i f yt h e a l g o r i t h mw h i l em a i n t a i n i n gt h ea u d i oq u a l i t yb e c a u s eo ft h el i m i t e dm e m o r yo fd s p a n dt h ed e m a n df o rr e a l t i m ea p p l i c a t i o n t h ec o m p l e x i t yo fl d xh a sb e e nr e d u c e d , t h eo p e r a t i v es p e e do ft h ep r o c e d u r eh a sb e e ne n h a n c e d ,a n dt h el d xa l g o r i t h mi s i m p l e m e n t e do no n et m s 3 2 0 d m 6 4 2d s p t h er e s u l t so fa n a l y s i sa n de v a l u a t i o no f f i x e d - p o i n ti m p l e m e n t a t i o n , t h ed s pp o r t i n ga n dt h ed e m o n s t r a t e sh a v es h o w n , t h e o r e t i c a l l ya n dp r a c t i c a l l y , t h a tt h ep r o p o s e df i x e d p o i n ta l g o r i t h mc a na s s u r eb o t h h i 曲q u a l i t ya n dh i g hc o m p r e s sr a t i oi nt h es a m et i m e , a n dh a v ep r o v e dt h a tt h e a l g o r i t h md o e sh a v ea p p l i c a t i o nv a l u e s ,a n dw i l lb ep u ti n t or e a la p p l i c a t i o n s k e y w o r d :p e r c e p t u a l a u d i oc o d i n g m u l t i p l ed e s c r i p t i o n sc o d i n g m u l t i m e d i ac o m m u n i c a t i o n sa n t i p a c k e t l o s s d i g i t a ls i g n a lp r o c e s s 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:叠金日期兰旦星:鉴 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章署名单位一律为西安电子科技大学。 本人签名: 导师签名: 耋企 卫色色鲤 日期塑竺堡:堑 日期兰址辱 日期2 竺z :f :三乃 第一章绪论 第一章绪论 1 。1 引言 随着现代p 网络和移动网络技术的迅猛发展,信道带宽和传输速率得以极大 的提高,网络设备和通信终端的处理能力也在不断地增强;同时,各种音频编码 算法在编码质量和编码效率上都获得了相当程度的提高,这使得实时高质量音频 业务迅速地向各种现代通信系统融合。然而,以包交换为基础的通信网络,如口 网和第三代移动网络等,在实际运营中,由于网络拥塞、信道干扰和噪声等原因, 都将不可避免地面临丢包的问题,以至于通过i p 网络和移动通信系统传输的音频 信息的质量无疑会受到丢包的严重影响,这个问题还远未有效解决。因而,在基 于包交换的m 网络和无线信道上进行实时高质量音频数据的可靠传输成为人们 研究的热点。 1 2 感知音频编码原理概述 感知音频编码器主要利用信号的统计特性和人类听觉的感知特性,一方面力 求去除信号的统计冗余,另一方面利用心理声学现象中的掩蔽效应,使用心理声 学模型,去除人耳不能感知的声音成分,同时也不一味追求最小的量化噪声,而 是力求使量化噪声不被人耳感知即可,这样,既实现了音频数据压缩的目的,又 不影响解码端重构音频信号的主观音质。 两者在感知音频编码算法中被广泛应用。 如图1 1 和图1 2 所示【1 】【2 】【3 】: 由于子带编码和变换编码的优点,使得 感知音频编解码器的基本结构框图分别 不同感知音频编码器在具体实现上可能略有差异,但其算法原理与过程基本 相同。编码器用变换窗对输入的数字音频信号进行加窗分块处理,为了消除边界 噪声,相邻数据块之间往往相互重叠。时频分析( 滤波器组) 不仅提供基本的分 析综合系统,它是实现变换编码和子带编码的基础。而时频分析工具的选择,主 要取决于编码系统在时域分辨率和频域分辨率方面的权衡。 编码器将一个短周期内的连续时间采样信号( 即数据块) 送入子带滤波器中, 滤波器组将信号分成多个限带信号,以近似人耳的临界频带( c r i t i c a lb a n d ) 响应。 各子带信号再经过时频变换,得到的频域参数被输入到量化编码模块。由于子带 滤波器和变换滤波器级联,所以通常称为混合滤波器组。 心理声学模型是感知编码器的核心,它利用了心理声学中的掩蔽现象,提出 2 抗丢包宽带音频编码算法的研究和实现 了临界频带的概念。心理声学模型对一个数据块进行分析,以临界频带为单位分 析信号的掩蔽特性和掩蔽效果,模型输出掩蔽阈值曲线,以此为依据去除听觉不 相关成分,掩蔽阈值提供给比特分配模块来控制量化噪声的大小,决定比特分配 方案。 比特分配模块依据心理声学模型提供的信息拟定比特分配方案,供量化编码 模块参考。 量化编码模块按照给定的比特分配方案进行比特分配,对频域参数进行量化 和编码,并将结果送给复合器进行比特流封装,在比特流中加入必要的边信息形 成最终的输出码流。量化编码模块一方面要考虑心理声学模型的分析结果,力求 去除听觉不相关成分并尽可能地将量化噪声控制在掩蔽阈值之下,同时还要考虑 编码比特率,因此,量化编码模块要在给定的编码比特率下力求获得最好的音质, 或在给定的音质要求下,力求最小的编码比特率。 感知音频解码器相对于编码器而言要简单,由于没有心理声学模型,所以计 算量也小得多,除此之外,解码过程基本上是编码过程的逆过程。解码时,编码 比特流经拆帧后,得到数据流和边信息,两者经熵解码,即得到频域参数,再经 时频反变换,形成重构的数字音频输出。 数据流 无 组 损 熵 编 边信息 帧 码 图1 1感知音频编码器的基本结构框图 图1 2 感知音频解码器的基本结构框图 1 3 音频编码技术的发展 目前音频压缩编码已有了多种不同的算法标准。1 9 8 8 年,国际标准化组织和 国际电子技术委员会组织了运动图像专家组( m p e g ) 研究高质量音视频压缩技 术,现已经制定了m p e g 系列标准。 ( 1 ) m p e g 一1 音频编码标准 第一章绪论 m p e g 1 ( i s o i e c1 1 1 7 2 3 ) 是在1 9 9 2 年m p e g 组织制定的第一个国际标准, 它能对最多两个声道编码,支持每声道比特率约为3 2 2 2 4 k b s 的3 2 ,4 4 1 和4 8 k h z 的p c m 数据。 m p e g 1 按照编码复杂度分三层编码机制,每个层次的复杂度,压缩率有所 不同。第1 层的复杂度最小,它用来处理相对高的数据传输速率( 每声道约为 1 9 2 k b s ) ,第1 i 层是在第1 层的基础上用比较复杂的方法来处理较低数据传输速 率( 每声道大约9 6 1 2 8 k b s ) 。第m 层与第1 层、n 层不同,是最复杂的,对最 低数据传输速率( 每声道约为6 4 k b s ) 进行处理【4 】【5 】【6 】。 ( 2 ) m p e g - 2 音频编码标准 m p e g 组织在1 9 9 4 年制定了m p e g 2 ( i s o i e c l 3 8 1 8 - 3 1 7 1 ,它是m p e g 1 音 频编码标准的补充,并向后兼容m p e g 1 ,表示为m p e g 2 b c 。与m p e g 1 相比, m p e g - 2 也按照编码复杂度分三层编码机制,但增加了三个采样频率,分别为 1 6 ,2 2 0 5 ,2 4 k i - i z ,这些附加频率不向后兼容m p e g 1 ,这部分标准就是m p e g - 2 l s f 。 m p e g 2 能够提供广播级的视像和c d 级的音质。m p e g - 2 的音频编码可提 供左右中及两个环绕声道,以及一个低频增强声道和多达7 个伴音声道( d v d 可 有8 种语言配音的原因1 f 8 】【9 】。由于m p e g 2 在设计时的巧妙处理,使得大多数 m p e g 2 解码器也可播放m p e g 1 格式的数据,如v c d 等。 ( 3 ) m p e g 2a a c m p e g 2a a c 1 0 】标准完成于1 9 9 7 年,经b b c ( u k ) 和n h k ( j a p a n ) 使用,测试 表明已达到最优化i t u r 6 0 1 推荐的分辨率,并且对于低比特率的多声道编码能提 供相当高的声音质量。 m p e g 2 a a c 不向后兼容m p e g 1 ,除去兼容性限制,其它性能均比m p e g 2 优越。它支持3 2 ,4 4 1 和4 8 k h z 的采样频率,也支持其它8 到9 6 k h z 的采样频率, 适用于从比特率在8 k b i t s 单声道的电话音质到1 6 0 k b i f f s 多声道高质量音频编码。 输入声道的配置为单声道,双声道,5 1 声道,最多可达到4 8 声道。 ( 4 ) 数字杜比( a c 3 ) 在多声道环绕立体声编码方面,美国杜比实验室的a c 3 音频编码【1 1 3 提供对 3 2 ,4 4 1 和4 8 k h z 采样,从单声道到5 1 环绕立体声的音频信号的编码,并支 持码率范围从3 2 k b i f f s 的单声道码流到6 4 0 k b i t s 的多声道高质量音频码流。a c 一3 采用自适应变换编码,具有很多优点。它使用的滤波器组的频率选择性非常接近 人耳的掩蔽效应,更好地模拟了人耳的听觉特性。 目前,d o l b y a c 3 已经凭借其良好的声场和声像重现能力,赢得了电影,家 庭影院,d v d 和数字电视伴音等领域的广泛应用。 ( 5 ) m p e g - 4a a c 4 抗丢包宽带音频编码算法的研究和实现 m p e g - 4 a a c ( i s o i e c1 4 4 9 6 3 ) 以n i p e g 一2 a a c 为核心,在此基础上增加了 感知噪声替代( p n s ) 和长时预测( u 甲) 功能模块,p n s 应用于具有类似噪声频谱 的音频信号,l t p 则针对具有明显基音特征的音频信号,并向下兼容m p e g - 2 a a c 。为了针对不同的要求提供不同的服务,m p e g - 4 分为4 个层次的应用,即 主层次m a i n ( m a i n ) ,低复杂度层次l c ( l o wc o m p l e x i t y ) ,采样率可分级层次 s s r ( s c a l e a b l es a m p l i n gr a t e ) 和长时预测层次( l t pl o n gt e r mp r e d i c t i o n ) ,各层编 解码复杂度不一样。 用a a c 对单声道音频编码,在6 4 k b i t s 下对绝大多数音乐编码可达到接近 c d 的音质效果。因此和m p 3 的单声道1 2 8 k b i t s 相比,编码效率已经有了很大 提高,被认为是下一代音频编码标准a a c 是唯一一个在欧洲广播联盟主办的 6 4 k b p s 听力测试中被评为优秀的因特网音频数字多媒体编解码器。鉴于其卓越的 性能和质量,a a c 已成为m p e g - 4 规范的核心,同时它还是因特网,无线网以及 数字广播网领域中的新一代音频数字解码器的选择【1 2 】。 我国在数字音频编码领域起步较晚,还没获得较成熟和完整的成果。中国自 己的数字音视频编解码技术标准( a u d i ov i d e oc o d i n gs t a n d a r d ,简称a v s ) 正在制 订中,a v s 音频编解码技术标准的目标是使a v s 音频编解码技术的综合技术指标 ( 包括编码效率复杂度和延迟等) 基本达到或超过m p e ga a c 编码技术。到目 前为止,音频编解码技术标准化的工作正在进行中,未形成正式标准。 1 4 研究内容和主要成果 本文的主要工作是对抗丢包宽带音频编码算法l d x 的基本原理和关键 技术进行分析,重点研究l d x 使用的多描述抗丢包算法及其实现,详细讨论了 l d x 浮点程序定点化的流程和常用方法,在t i 的定点d s p 芯片1 m s 3 2 0 d m 6 4 2 上移植定点程序,并对其进行平台和算法的优化,最后对定点化结果和d s p 实现 结果进行主客观性能测试。 本课题主要实现了抗丢包宽带音频编码算法的定点程序,该算法在d m 6 4 2 平台的移植以及平台的算法优化。测试数据表明定点化后的程序算法复杂度明显 降低,与浮点程序相比在主观听感上无明显区别,采样速率为3 2 k h z 时的相对误 差在1 0 以下,抗丢包性能良好。通过各种平台和算法优化方法,大大降低了 d s p 代码的运算复杂度和存储复杂度,采样速率为4 8 k h z 时,运算复杂度从8 2 8 7 m c p f ( m i l l i o nc y c l e sp e rf r a m e ) 降为5 9 2m c p f ,编解码器达到了适时处理的性 能。抗丢包宽带音频编解码器的实现对有效解决实时音频传输的丢包问题有重要 意义。 第一章绪论 1 5 论文的结构安排 本论文共分为五章,具体内容和结构安排如下: 第一章介绍了论文的研究背景、感知音频编码的基本原理、音频编码技术的 发展及论文的研究内容和结构安排。 第二章首先介绍了抗丢包宽带音频编解码算法l d x 的基本原理,接着详细 分析了多描述抗丢包音频编解码算法框架、标量量化双描述编解码算法和听觉剩 余信号标量量化双描述编解码器的实现。 第三章介绍了1 m s 3 2 0 d m 6 4 2 及其开发环境、抗丢包宽带音频编码算法的定 点化方法和l d x 定点算法的代码移植和优化方法。 第四章主要对抗丢包宽带音频算法的定点版本和浮点版本进行测试对比,并 对d s p 上实现的l d x 适时编解码器进行测试,以对比其优化效果。 第五章对论文所做的研究工作及其意义进行归纳和总结。 第二章抗丢包宽带音频编解码算法研究 7 第二章抗丢包宽带音频编解码算法研究 2 1 引言 现存的感知音频压缩算法,如m p 3 、a a c 系列、g 7 2 2 1 c 和o g gv o r b i s 等, 虽然可以对音频信号进行高效的和高质量的压缩,也具备一定的纠错功能,但是 它们都属于单描述编码( s d c ,s i n g l ed e s c r i p t i o nc o d i n g ) 范畴,即所有音频信 息都是以同一种方式进行编解码并形成一个比特流。 对于现在快速发展的基于包交换的通信网络来说,这种编码方式并没有较好 的抗丢包性能,因为在差错网络( 如碑网和移动通信网) 环境下,直接使用这种 编码方式进行实时音频通信会同样面临网络丢包问题,从而导致音频通信质量明 显下降、甚至无法正常使用。虽然现存的减小因丢包而导致音频质量下降的方法 可以在一定程度上降低由于丢包带来的音质损失,但仍然不能很好的满足实时高 质量音频编码与传输的要求。 抗丢包宽带音频编码算法使用多描述技术对音频信号进行编码。多描述编码 是一种在不可靠网络中传输信息的信源编码技术【1 3 1 ,它可以在不增加时延的情况 下,通过生成多个传输比特流、并在各比特流中弓l 入多余度的方法,提供一种稳 健的抗丢包的信源编码算法。多描述编码采用多个描述( 即比特流) 来表征信源信 息,每一个描述都提供了对原始信源信息的近似,多个描述相互提炼可以产生一 个对原始信源信息的由任何单一描述所不能达到的最佳逼近。 2 2 抗丢包宽带音频编码基本原理 低延迟抗丢包宽带音频编码算法( l d x ) 是由低延迟高质量音频编码算法研 究【1 4 】和多描述抗丢包音频编码与传输算法研究【l5 】共同提出的一种新的高质 量宽带音频编码算法,主要面向实时的交互式通信应用。l d x 算法的提出弥补了 传统音频编码算法和语音编码算法的不足,它不仅具有较低的编解码算法延迟和 良好的抗丢包性能,而且在编码效率、音质和算法复杂度等方面,可以与时下的 其它高级感知音频编码算法相媲美。l d x 算法所用的抗丢包技术是一种基于多描 述编码的高质量音频编码算法。其核心思想是在音频信源分析与合成以及量化与 编码这两个层面上进行多描述处理。在将来的研究方向上,可以把其它现有的音 频编解码器或自主创新的音频编解码结构和多描述算法结合起来,以便更有效地 解决实时音频传输的丢包问题。本章在低延迟高质量音频编码算法研究和多 8 抗丢包宽带音频编码算法的研究和实现 描述抗丢包音频编码与传输算法研究两篇论文的基础上,进一步研究了抗丢包 宽带音频编码算法中的关键技术和所用多描述算法的思想方法,为后面的定点化 和在d s p 上的实现打下基础。 u ) x 是一种感知音频编码算法,它在传统感知音频编码算法之上,对时频分 析模块、心理声学模型算法作了改进,同时应用了新的抗丢包技术和新的立体声 编码技术,在编码效率和音质方面达到时兴的其它感知音频编码算法的水平。 l d x 主要面向实时、全双工和交互音频及多媒体通信应用,提供实时的高质 量的音频服务。l d x 采用了相对较短的、长度固定的变换窗,但为了保持其灵活 和适用性,l d x 提供了两种长度的变换窗,分别为5 1 2 和1 0 2 4 ,在3 2 k h z 采样 率下,两种变换窗所对应的算法延迟分别为1 6 m s 和3 2 m s 。 l d x 中的主要算法还是采用m d c t 技术,由于未使用子带滤波器组,编码 器能在不进行下采样的条件下,可将c d 高质量立体声信号压缩到低于4 8 k b s 比 特率,输出比特率支持变速率( r :v a i l a b l e b i t r a t e ) 和恒定速率( c b r :c o n s t a n t b i tr a t e ) ,范围为1 6 1 2 8 k b s e h ,输入音频信号支持:采样率8 1 9 2 m z ;量化 分辨率1 6 2 4 b i t 样点。l d x 支持单声道、立体声、4 声道、5 ,1 声道,最高可支 持2 5 5 独立声道【1 6 】。l d x 编码流与g 7 2 2 1 e 相似,编码器仅仅接收输入的音频数 据块,并压缩成数据包,因此l d x 数据包可用于任何能够提供帧格式、同步、 定位及差错保护的一种传输机制,如r t p 。 跟其它感知音频编码算法一样,l d x 是通过去除感知冗余和统计冗余来获得 编码增益,因此,时频分析模块与心理声学模型是l d x 音频编码器的核心。l d x 音频编码器的结构如图2 1 所示。 图2 1l d x 音频编码器框图 l d x 编码器对输入的信号分块处理,通常根据时域和频域的分辨率及编码延 迟的要求确定数据块的长度。在进行时频变换之前,对一数据块进行加窗处理, 为了保证数据块之间的衔接,相邻数据块部分重叠。加窗后的数据块进行时频分 析和心理声学分析。 第二章抗丢包宽带音频编解码算法研究 9 时频分析完成音频信号从时域到频域的变换,从而得到信号的频域参数( 频 谱) 。时频变换的主要目的是为了将信号的能量集中于少数的几个频谱系数,便于 量化和编码。 加窗后的数据块f f t 后作心理声学分析,结合m d c t 频谱系数,计算掩蔽 曲线,该掩蔽曲线( 阈值) 是对m d c t 频谱量化时所允许引入的最大量化噪声。 为了以尽量少的比特,且又能较精确地表示掩蔽曲线,l d x 结合临界频带的概念, 对掩蔽曲线通过线性分段逼近的方式获得掩蔽门限曲线( m a s k i n g t h r e s h o l d ) ,如 图2 2 ( a ) e 1 4 】所示。然后用掩蔽门限曲线对m d c t 频谱进行白化处理,得到去除感 知冗余之后的残差信号( r e s i d u e ) ,如图2 2 ( b ) t 1 4 】所示。由于残差信号的动态范围 明显变小,从而可以减少量化误差或节省编码比特数。对于多声道,采用声道耦 合技术可以进一步降低冗余度。耦合主要是将左右声道数据从直角坐标映射到正 方极坐标,最后对残差信号进行有效的矢量量化、编码,再将要传输的各种信息 数据按l d x 定义的包格式封装,形成l d x 编码比特流。 2 2 1 时频分析技术 系数点 f a ) m d c t 频谱及掩蔽门限曲线 系数点 ( b ) 残差信号 图2 2 掩蔽门限曲线和白化后的频谱 宽带音频编码的第一步是对音频信号进行时频分析,将相关的时域音频信号 表示为相互独立的变换域系数,从而尽可能消除原始信号间的冗余。 1 0 抗丢包宽带音频编码算法的研究和实现 现代数字信号处理技术中的频域变换方法有很多,常用于音频压缩编码的有 离散傅里叶变换( d f t ) 和离散余弦变换( d c t ) 。傅里叶变换就是利用复数域正交变 换将一个函数从时域描写变为频域描写,这时会使函数的某些特性变得明显,从 而使问题处理简化。但由于d f t 存在有复数域运算及运算量大的弱点,常常使实 时处理发生困难。在寻求快速算法的同时,构造了一种实数域变换离散余弦 变换( d c t ) 。 以忸m ) 表示肘个其值有限的一维实信号序列的集合,m = o ,1 2 ,m 一1 , 则其一维d c t 变换对定义如下【1 7 1 : y 忙) = 西万c ) - 笺石) c o s ( 2 m 2 + m 1 ) k n ,七= o ,1 ,肘一1 ( 2 - 1 ) x 妇) = 厨,c 萋y g ) c o s 可( 2 m + 1 ) k x , r e = o , 1 ,材一l ( 2 - 2 ) 其中 舷) : “4 2 ,拈o ( 2 - 3 ) 一 ( 1 ,k = 1 , 2 ,m 一1 正交变换一般是分组( 块) 进行的,而对每一组系数的编码一般也是独立进行 的,因此量化误差对于相继各分块的影响也不相同。由于正交变换在边界处也存 在着固有的不连续性( 只不过对于不同类型的正交变换,其不连续的程度也不相 同1 ,因此在这些分组边界处就可能产生很大的噪声。 虽然d c t 技术日前在语音、图象编码中获得广泛应用,但在音频编码中存在 边界效应,会产生很大的边界噪声。所以近年来在d c t 基础上提出一种改进的离 散余弦变换( m d c t ,m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) ,m d c t 应用了时域混叠 抵消技术,它能克服d c t 的不足,即有利于消除块边界噪声。同时,与d f t 相 比,m d c t 只需作余弦变换,而d f t 需同时作余弦和正弦变换。这些特点使得 m d c t 非常适合于变换的音频编码算法中。 多描述抗丢包音频编码算法框架使用m d c t 对原始音频信号进行时频变换, 得到频域m d c t 系数。在l d x 编码算法中,m d c t 谱系数还将用作心理声学分 析,这是许多其它感知音频编码算法所不具有的特点。 在l d x 算法中,m d c t 变换定义式【1 4 】为: 删= z 篓刺西) c o 恪o + ) ( 磨+ 期,舢一, m d c t 逆变换( i m d c t ) 定义式【1 4 】为: 第二章抗丢包宽带音频编解码算法研究 小) = 万2 呻岳n - i x 岱) c o s 斋( n 饥 ( 七+ 丢 ,以一o ,k ,一, 其中:是变换块长度,= 笪笔生是一个固定的时间偏移量,“n ) 为窗 函数,其长度等于变换块的长度,加窗的目的是为了降低边界效应对谱分析的影 响,同时提高频域分辨率。l d x 采用了一种特别的窗函数,解析式【1 4 】为: w ( 栉) = 咖汹2 【华三) ( 2 _ 6 ) 奠中:n :0 1 n 一1 。n 表示i , d x 窗长。 2 。2 2 心理声学模型 音频信号能够进行压缩编码的第二个基本依据是充分利用人耳的听觉特性。 人耳的听觉特性在提高宽带音频压缩编码质量中起着至关重要的作用。高质量的 编码方法都是依赖于人类的感知,更确切地说是依赖于掩蔽效应( 心理声学现象) 。 心理声学模型利用了人耳听觉的掩蔽特性,把整个信号频带以临界频带划分, 估计出各个临界子带的掩蔽阈值,得到信掩比,并计算出各个临界子带的最小掩 蔽阈值。编码器利用声学模型计算结果对量化噪声的频谱进行适当整形,使每个 临界子带内的量化噪声功率小于临界子带的最小掩蔽闽值。这样,噪声能够被音 频信号所掩蔽,满足听觉系统的掩蔽效应,达到感知失真最小。 ( a ) 噪声掩蔽晋调 音调掩蔽噪声 图2 3 噪声掩蔽音调和音调掩蔽噪声示意图 心理声学模型算法中的掩蔽特性有两种类型:音调掩蔽和噪声掩蔽1 8 1 。噪声 抗丢包宽带音频编码算法的研究和实现 掩蔽包括噪声掩蔽音调( n m t :n o i s em a s k i n gt o n e ) 和噪声掩蔽噪声( n m n :n o i s e m a s k i n gn o i s e ) ,音调掩蔽是音调掩蔽噪声( t m n :t o n em a s k i n gn o i s e ) 。所谓噪声 掩蔽音调是指在同一个临界频带内,一段窄带噪声会掩蔽一个低幅音调,如图 2 3 ( a ) 【1 8 】所示。所谓音调掩蔽噪声是指在同一个临界频带内,一个较高幅度的纯 音会掩蔽其频率附近的一段幅度在一定范围内的噪声,如图2 3 靶所示。噪声 掩蔽噪声是一段窄带噪声掩蔽另一段窄带噪声的情况。这些掩蔽特性决定了所要 求的信噪比( s n r ) 。其中,音调掩蔽噪声和噪声掩蔽音调的量化计算在临界子带 里分析,而噪声掩蔽噪声并不限制于临界子带,是在各个临界子带之间产生,用 掩蔽扩展函数来量化分析。 多描述抗丢包音频编码算法使用心理声学模型在频域对音频数据进行分析, 信号从时域到频域的转换可以通过m d c t 或f f t 实现。心理声学模型原理图如 图2 4 所示,首先把音频数据进行m d c t 和f f t 时频变换,把得到的m d c t 系 数和f f t 系数输入到噪声掩蔽曲线模块和音调掩蔽曲线模块中,并分别计算出噪 声掩蔽曲线和音调掩蔽曲线,绝对听觉门限( a t h ,a b s o l u t et h r e s h o l do f h e a r i n g ) 模块计算出的绝对阈值曲线也被用于计算音调掩蔽曲线。最后,由噪声掩蔽曲线 和音调掩蔽曲线共同计算出全局掩蔽曲线。 限 图2 4 心理声学模型原理图 绝对听觉门限是以表格的形式在八倍频程域给出。在程序初始化时,编码器 可以通过线性内插的方式把八倍频程域的绝对阈值变换到线性频域。在心理声学 模型分析的过程中,心理声学模型可以根据当时频带中频谱能量的最大值来调整 绝对听觉门限。这使锝绝对听觉门限可以随着当前帧的音频信号特性变换进行动 态地调整,以达到更好的编码音质。 噪声掩蔽曲线计算方法是根据m d c t 输出频谱系数的对数值,按简单线性回 归分析得到相应的近似平滑曲线,最小平方误差的线性回归方程【1 4 】为: y = a + 缸 ( 2 7 ) 第二章抗丢包宽带音频编解码算法研究 4 = 髫蛩l , 6 = 引 , 。鬈专i 。, 其中,薯表示第i 根谱线,表示相应谱线的能量,表示回归应用的数据 总数。根据平滑曲线及噪声频谱偏移量曲线,可得到最终的噪声掩蔽曲线。 音调掩蔽曲线模块使用f f t 系数来计算音调掩蔽曲线。该模块首先把f f t 系数平方再求其对数,得到对数域的能量谱;其次,该模块把每个谱线都作为音 调分量并计算出其掩蔽门限;最后,该模块把各个音调分量掩蔽门限的最大值作 为总的音调掩蔽门限。计算单音调掩蔽门限的方法为:首先把每个音调分量的索 引值变换到八倍频程域,再根据此音调分量的能量值选择相应的扩展数组来计算 这个单音的掩蔽门限。 全局掩蔽曲线模块使用由m d c t 系数分析出来的噪声掩蔽曲线和由f f t 系 数分析出来的音调掩蔽曲线计算出全局掩蔽曲线。该模块根据音质或平均速率选 择相应的补偿级别,然后用补偿级别找到噪声掩蔽曲线的补偿系数和音调掩蔽曲 线的补偿系数,分别进行补偿后取两种曲线的最大值作为最终的全局掩蔽曲线。 2 2 3 立体声耦合处理 立体声编码是现代感知音频编码中非常重要的技术之一,它是利用声道之间 存在相关性这一事实并结合人的听觉特性,通过立体声编码可以进一步降低比特 率。我们熟知的有联合立体声编码技术 1 9 】【2 0 】【2 1 】,它包括中间旁边( m s ) 立体声 编码( 也被称为和一差编码) 与强度立体声编码( i n t c a s i t ys t e r e oc o d i n g ) 。 l d x 通过去除或减少声道间的冗余度和立体声场中主观感觉不到的无用频 谱分量来减少音频信号数据量,从而降低音频编码比特率。l d x 音频编码算法中 采用了正方极坐标映射和声道交织这两种机制来实现声道耦合,可以实现完全无 失真的声道耦合,也可以通过去除立体声场中主观听不到或不重要的分量来实现 具有不同程度失真的立体声耦合,从而压缩立体声信息、降低编码比特率。这种 耦合技术算法与m p 3 和其它音频编码中采用的m s 联合立体声相比,具有算法 简单、灵活性好的特点。l d x 编码比特流或文件可能包含多个音频声道对,声道 的极化耦合技术是分层结构,因而可以外推到除了双声道、四声道和5 1 环绕声 道之外的任意声道配置的应用中去。 1 4 抗丢包宽带音频编码算法的研究和实现 正方形极坐标耦合有以下优点【1 6 】: l 、最大相关。l d x 编码通过频谱掩蔽门限曲线,对m d c t 频谱系数进行白 化处理,这样有利于将左右声道的相关特性最大化。因此左右声道的残差非常接 近,采用了正方极坐标映射可以有效地去除冗余,从而降低编码比特率。 2 、点声像和发散声像。极坐标表示的第一个好处是可将有效空间声音信息分 离成在给定频率且位于声场某处的“点声像”( 幅度) 和同时充满大量空间的“发 散声像”( 角度) 。若仅保留幅度( 点声像) 数据,通过对每个声道仔细地选择掩 蔽门限函数可以提供与精细频率相关联的( 类似于m p 3 中定义的) 强度立体声。 角度信息表示了发散声场,如表现同时充满整个空间的混响。 3 、控制比特泄漏和符号串扰。极坐标表示方法一般可以把能量集中到很少的 几个值上,从而减少了级联( 多级矢量量化编码) 时的比特泄漏,这是极坐标表 示的另一个好处。此外由于多级码本的不同级间符号的熵“串扰”,极坐标表示可 以将熵进一步集中到可预测的位置,这样通过码本设计来改进多级码本效率。 4 、消除三角函数和舍入。舍入和三角函数的复杂性是普通极坐标表示的内在 问题。l d x 使用了基于单位正方形而不是单位圆,完成从左右声道直角坐标到正 方形极坐标的一一映射,这样通过简单加减即完成映射运算。 使用正方形极坐标映射,集中幅度矢量上能量并减少角度矢量编码的信息量, 对残差矢量独立编码确实节省了比特,但是幅度和角度矢量间还存在隐含相关。 在极坐标映射后,几个输入矢量交织成单个输出矢量。由于这个输出矢量由相匹 配的幅度角度值构成,因此进行熵编码,可以同时进一步压缩幅度和角度,去除 隐含的相关性。 2 3 抗丢包宽带音频编码算法的抗丢包技术 l d x 算法使用的多描述算法框架的核心思想是在音频信源分析与合成以及 量化与编码这两个层面上进行多描述的处理。 首先,在音频信号处理的层面进行多描述的分析与合成。即在编码端,将音 频信号分别进行时频分析和心理声学模型分析,分别输出频域信号和听觉掩蔽门 限,再根据这两种信号计算出听觉剩余信号,至此,编码端把音频信号分解为互 不相关的听觉掩蔽门限和听觉剩余信号;在解码端,将编码端分解出的这两种信 号重新合成为频域信号,并进行时频反变换将频域信号变换为时域信号。 然后,在量化和编码的层面分别对听觉掩蔽门限和听觉剩余信号进行多描述 编解码。即在编码端,首先使用具体的多描述编码器分别对听觉掩蔽门限和听觉 剩余信号分别进行多描述编码,其次把得到的多描述听觉掩蔽门限信号和多描述 听觉剩余信号合路为相同数量的多描述信号,最后对这些多描述信号进行熵编码, 第二章抗丢包宽带音频编解码算法研究 最后形成相同数量的多描述比特流;在解码端,首先把接收到的多描述比特流进 行熵解码得到多描述信号,其次将其分路为多描述听觉掩蔽门限信号和多描述听 觉剩余信号,最后使用具体的多描述解码器对这两种信号进行多描述解码,分别 得到听觉掩蔽门限和听觉剩余信号。 2 3 1 多描述抗丢包音频编码算法框架 多描述抗丢包音频编码算法框架的编码过程为:原始音频信号分成两路,一 路利用时频分析工具得到频域参数;另一路进行心理声学模型分析得到与当前音 频帧相关的听觉掩蔽门限。听觉剩余信号分析利用听觉掩蔽门限去除频域系数中 的听觉不相干信息或不相干度,得到去除了听觉不相干性的、在听觉意义上白化 的剩余信号。然后,将表征本帧音频信号信息的剩余信号和掩蔽门限送给多描述 编码器进行多描述处理,得到n 个可以进行单独或联合多描述解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论