(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf_第1页
(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf_第2页
(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf_第3页
(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf_第4页
(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(信号与信息处理专业论文)mpeg4aac音频解码器设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明本声明 的法律责任由本人承担。 论文作者签名:堑3 :! 兰日期 及伊、j 0 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:翅:i 垒导师签名:塑! 日期:盈竺2 山东大学硕士学位论文 摘要 m p e ga a c ( a d v a n c e da u d i oc o d i n g ) 族是目前得到广泛应用的胛e gl a y e r 一3 , 即m p 3 的后继产物。比特率范围可从2 4 k b i t s 到2 5 6 k b i t s 不等,作为新一代最有 效的高保真数字音频编码手段,m p e ga a c 具有压缩比高,重建音频质量好,编解 码过程模块化,声道配置灵活等特点,并且不同的层次具有不同的算法复杂度。 肝e g 从c 的开发开始于1 9 9 4 年,并于1 9 9 7 年纳入m p e 6 - 2 体系,成为独立于胛e g 屯第 三部分a u d i o 之外的完整的音频处理体系,咖p e g - g 第七部分。后来又因其优秀的 编码效率和音频效果,作为音频处理主体部分纳入到m p e 6 - 4 标准,目p m p e 6 4 第三部 分a u d i o 。m p e 6 - 4 a a c 在m p e 6 - 2 a a c 的基础上有了多项改进和发展,并且随着m p e 6 - 4 标准的日益完善,m p e 6 - 4a a c 也在不断的改进过程中。m p e 6 - 4a a c 音频编码标准 在新一代移动通信、数字声音存储、因特网多媒体传输,数字音频广播( d a b ) 等领 域正获得日益广泛的应用。 本文的工作是了解m p e 6a a c 音频标准发展状况,分析标准内容,并在此基础 上最终完成m p e g - 4a a c 音频解码器的软件实现和优化。 本文主要包括以下内容: 首先,介绍了声音信号的基础情况、音频数据压缩的主要理论依据,回顾了 m p e 6a c 标准的发展历程简单介绍近几年的发展方向和特点。由于a a c 最早纳 入了, m e p g 一2 标准体系,本文将对m e p g - 2a a c 和m p e g - 4a a c 做一个简单的对比并分 析后者基于前者的发展和进步。分析m p e g 一4a a c 的技术性能特点。 随后,完成对解码功能块之外的所有有效负载的码流解析设计。m p e g - 4a a c 的码流结构遵从i s o 新的多媒体文件格式i s ob a s e - t e d i af t l ef o r m a t ( 即m p e g - 4 第十二部分) 和m p e g 一4 文件格式m p 4f i l ef o r m a t ( 即m p e g _ 4 第十四部分) ,这些 是码流解析的依据。同时为了与m p e g 一2a a c 兼容,能够解码早期的m p e g 一2a a c 文 件本文完成了对卅e g 一2a a c 码流格式a d t s 和a d i f 的解析设计。 之后,完成了对m p e 6 - 4a a c 各解码功能模块的设计方案。高度模块化是a a c 标 准编解码的特点。其功能模块包括h u f f m a n 编码、尺度化编码、i m i c t 、p n s 、联合 编码、l t p 、t n s 、增益控制等。这些功能模块之间相对独立某些模块之间又存 山东大学硕士学位论文 在既定的上下游关系、交叉关系或排斥关系。在完成码流解析的基础上对每帧音 频数据根据其在编码段处理过程的不同,设计并优化各功能模块的解码方案。 然后,完成了程序整体架构的设计。并对其中的一些重要函数体和结构体给 出说明。 最后对整个工作给出总结并对未来工作做出展望。 2 关键词;肝e g 一4a a ci m d c r 联合编码l t p 山东大学硕士学位论文 a b s t r a c t t h em p e g a a c a d v a n e o da u d i oc o d i n g ) f a u t i l yi st h ec o n s e q u e n tc o n t i n u a t i o n o ft h et r u l ys u c c e s s f u la u d i oc o d e cm p e gl a y e r 3 w i d e l yk n o w n m p 3 w i t l lb n r a t e sr a n g i n gf r o m2 4k b i t st o2 5 6 k b i t s ,m p e ga a cc o m b i n e se x c e l l e n tc o d i n ge f f i - e i e n c yw i t hh i g h e s ta u d i oq u a l i t y a n di sf u l l ym u l t i - c h a n n e lc a p a b l e m p e ga a c h a s t h ec h a r a c t e r so fh i 曲r e c o n s t r u c t i o na u d i oq u a l i t y , m o d e l i n go fc o d i n ga n d d e c o d i n g p r o c c s s t f l e x i b l ea u d i oc h a n n e l c o n f i g u r a t i o n ,a n dt h e r ei sd i f f e r e n ta l g o r i t h m c o m p l e x i t ya td i f f e r e n tp r o f i l e t h ed e v e l o p m e n to fm p e ga a cs t a r t e da t1 9 9 4 o n l yt h r e ey e a r sl a t e rt h en e w f o r m a tb e c a m ep a r t7o ft h em p e gs t a n d a r da sm p e g - 2a a c ,w h i c hi si n d i v i d u a l a u d i op r o c e s s i n gp a r tt om p e g - 2p e r t3a u d i o ,a l s ob p a ? a r i s eo f t h e o u t s t a n d i n gc o d i n g e f f i c i e n c ya n da u d i oq u a l i t y , m p e ga a cw a sl a t e rb r o u g h ti n t ot h em p e g - 4s t a n d a r d a st h ep a r t3o fm p e g - 4 m p e g - 4a a c h a sm u l t i p l ei m p r o v e m e n ta n dd e v e l o p m e n t b a s e do f ft h em p e g - 2a a c m p e g - 4a a cn o wi sw i d e l ya p p l i e , df o rt h en e x t g e n e r a t i o n m o b i l e c o m m u n i c a t i o n ,d i g i t a la u d i os t o r i n g , l a t e m c tm u l t i m e d i a t r a n s m i t t i n g , d i g i t a la u d i ob r o a d c a s t i n g ( d a b ) ,e r e t h i sp a p e rf o c u s e so n a n a l y z i n gt h ec o n t e n to fs t a n d a r da n dc o m p l e t i n gt h e s o f t w a r er e a l i z a t i o na n do p t i m i z a t i o no f m p e g - 4a a c d e c o d e c t os u m m a r y , t h ec o n t e n t so f t h i sp a p e ri n c l u d ef o l l o w i n g a s p e c t s : f i r s t l y , t h ea u d i os i g n a lk n o w l e d g e ,a u d i od a mc o m p r e s s i n gt h e o r y , t h e d e v e l o p m e n th i s t o r yo f m p e ga a ca n do t h e ra u d i op r o c e s s i n gs t a n d a r d ,a n dt h ef u t u r e d e v e l o p m e n td i r e c t i o ni si n t r o d u c e d b e c a u s et h em p e ga a cw a sf i r s t l yb r o u g h ti n t o t h em p e g - 2s y s t e m , t h ec o m p u t a t i o nb e t w e e om p e g - 2a a ca n dm p e g - 4a a ci s f m i s h e di nt h i sp a r t , f o c u s i n go nt h et e c h n o l o g yc h a r a c t e ro f m p e g - 4a a c s e c o n d l y , t h i sp a p e rf i n i s h e st h ep a r s i n gd e s i g no ft h ep a y l o a db i t s t r e a m t h e m p e g - 4a a cb i t s t r c a ms t r u c t u r ec o m p l i e sw i t ht h ei s on e wm o l t i m e d i nf o r m a t - l s o 3 山东大学硕士学位论文 b a s em e d i af i l ef o r m a t ( t h ep a r t1 2o fm p e g - 4 1a n dm p 4f i l ef o r m a t ( t h ep a r t1 4o f m p e g - 4 ) a tt h es a m ot i m e , t ob ec o m p a t i b l ew i t hm p e g - 2b i t s t r e a m ,t h i sp a p e ra l s o f o c u s e so nt h ep a r s i n go f m p e g - 2b i t s t r e a mf o r m a t - - a d t sa n da d i e t h e n ,t h ed e s i g ns c h e m eo f t h em p e g - 4d e c o d i n gf u n c t i o nm o d u l ei sp r o p o s e di n t h i sp a p e r , i n c l u d i n gh u f f m a nd e c o d i n g , s c a l e f a c t o rd e c o d i n g 、i m d c t 、in s 、j o i n t c o d i n g 、m 、t n s 、g a i nc o n t r o l ,e t c s u c hf u n c t i o nm o d u l e s a r ci o d q m o d e n tf r o me a c h o t h e r b u tt h e r ea r es o r t i ed e c o d i n go r d e ro rb c t w e f f f ls o m es p e c i f i cm o d u l e s a tl a s ta r ti n t e g r a t e dp r o g r a ms t r u c t u r ei n t r o d u c t i o ni sp r o p o s e d f o c u s i n go hs o m c i m p o r t a n tf u n c t i o nb o d ya n ds t r u c t u r eb o d y t h ec o n c l u s i o no f t h i sp a p e ra n d t h ef u t u r e r e s e a r c hd i r e c t i o ni sp o i n t e do u t k e y w o r d :m p e g - 4a a c ,i m d c t ,j o i n tc o d i n g , l t p 山东大学硕士学位论文 1 1 声音信号的数字化 第一章绪论 随着计算机技术和通信技术的发展,人类进入了“数字时代”。这带来了括文 字,声音和图像等人类生活息息相关的信息处理的大变革。将这些媒体信息都从 本生的模拟信号进行数字化处理,再由计算机平台进行各种处理和综合,使各种 媒体信息的传播和保存发生了质的飞跃。但是各种媒体数字化后的信息数据量十 分庞大,对于存储器的容量,计算机实时处理以及网络通讯线路的传输带宽都提 出了非常苛刻的要求。所以对多媒体信息数据进行压缩,成为研究的热门课题。 在人类的几种感觉器官中,听觉和视觉接受的外界信息最多与之相适应, 这两种器官接受的声音与图像视频成为了多媒体的主要媒体数据,也是信号处理 领域重要的研究对象。在这里,本文主要研究声音信号的压缩解码。 根据所处理的声音信号特征的不同,可以将声音信号分为如下两类: l 语音信号 目前常见的话音通信系统,如长途通信、移动通信和卫星通信,主要面向这 种信号,其信号频带限于0 3 - 3 4 k h z 数字化时采样频率多取8 k h z 。 2 音频信号 一般认为人耳的听觉范围为2 0 h z ,2 0 k h z ,这正是我们所需处理的音频信号的 频带。也就是说。如果我们能够完整的保留下该频带内的所有声音信息,就意味 着不失真的保存了所需音频。在实际应用中,这种信号还可分为: i ) 电视和无线广播质量音频:信号频带从4 0 或5 0 h z 到7 k h z ( 调幅) 或 1 5 k h z ( 调频) 广泛用于收音机和电视伴音。 2 ) c d 质量音频:频带2 0 h z - 2 0 k h z ,主要用于传输或存储高品质音乐信号,数 字化时采样频率可取“1 k h z 或4 8 k h z 等 3 ) 高质量h i f i 音频:和c d 音频相比,频带更宽,量化更细。这种质量声音 使听众具有现场感,即狁如置身于音乐厅中,而且多采用多声道混放输出,形成 环绕,并提供低音增强等功能。数字化时采样频率最高达9 6 k h z 。 山东大学硕士学位论文 数字音频作为一种存储、处理和传输h i f i 声音的方法在数字音频广播( d a b ) 、 网络音频( 1 n m m e t a u d i o ) 、多媒体通信等许多领域中得到广泛的应用。然而,要存 储和传输原始音频数据需要很高的比特率。以c d 为例,每声道比特率高达 7 0 6 k b p s ,一张6 5 0 m b 容量的光盘只能存储- - d 时的立体声,如果直接传输需占 用一个t 1 或e l 的1 2 个话路,极不经济。虽然近几年存储介质发生了很大的发展, 存储容量越来越大,介质体积越来越小,但是提高音频的压缩比是更根本的方法。 1 2 音频压缩技术的理论依据 人耳的听觉系统是一个相当复杂的生理系统。首先人耳的听觉有它自身的生 理极限,它一般只能感知频率在2 0 2 0 k h z 的声音。在这个频段内的声音通过神经 传输到大脑皮层,然后由大脑将声音转化成不同的感知信号。在这个过程中,有 以下几点对于我们构造音频压缩算法尤其重要: 1 响度( l o u d n e s s ) 两个l 晤度一样的声音如果频率不同,它们会有不同的响度。产生这个现象的 原因是人耳对声音响度的感知会随着声音信号频率的变化而变化。实验证明,人 耳对1 0 0 0 h z - 5 0 0 0 h z 的声音最为敏感。 2 动态范 虱( d y n a m i cg a n g * ) 人耳能感知的最低声压大约为2 0 m p a s c a l ,将这个声压作为参考值,来衡量其 他声音的强度。普通谈话的声强大约是5 0 6 0 d b ,而汽车发动机噪声的声强大约为 1 3 0 d b 。人导能忍受的最大声强为1 3 0 d b ,因此人听觉的动态范围为0 - 1 3 0 d b e , 3 听觉掩蔽效j 立( a u d i t o rm a s k i n g ) 掩蔽效应是一种常见的心理声学现象。它是指,在一个较强的声音附近,弱 的声音将不被人耳所察觉,即被“掩蔽”掉。这时,较强的声音称为掩蔽声,弱 的声音称为被掩蔽声。不可闻的被掩蔽声的最大声压级称为掩蔽门限。由于掩蔽 声的存在,被掩蔽声( 通常指单频声) 的闻阈必须提高的分贝数称为掩蔽量。掩蔽效 应分为频域掩蔽( 或同时掩蔽) 和时域掩蔽( 或异时掩蔽) 两大类。 1 1 频域掩蔽:频域掩蔽现象发生在掩蔽声与被掩蔽声同时出现的时候。举例来 说,如果在1 0 0 0 h z 处有一个强音,而在1 1 0 0 h z 出有一个强度低了2 0 d b 的声音, 山东大学硕士学位论文 1 1 0 0 h z 处的声音就会被1 0 0 0 h z 处的强音掩蔽,无法被听到。由于掩蔽效应,幅 度较大的音调( 掩蔽音调) 使靠近自己的相对幅度较小的音调变得听不见。一般来 说,强音能掩蔽较弱的声音,而且两个声音的频率越接近,掩蔽效应越明显。 时域掩蔽:时域掩蔽现象发生在掩蔽声与被掩蔽声不同时出现的时候,也称 为异时掩蔽。被掩蔽声作用于掩蔽声之前,即一个声音影响了时问上先于它的声 音的听觉能力,遮称为前掩蔽。当掩蔽声作用在前,被掩蔽声作用在后,即当一 个声音已经结束,它对另一个声音在听觉上还会产生影响,这称为后掩蔽。图1 1 给出了频域和时域掩蔽效应的特性曲线。前掩蔽的作用范围大约是2 0 m s ,而后掩 蔽的作用范围长达2 0 0 m s 。前掩蔽和听觉疲劳有些相似。在实践中,后掩蔽更为重 要。当被掩蔽声在时间上越接近于掩蔽声,阈值就越高。掩蔽声和被掩蔽声时间 上相距很近时。后掩蔽作用大于前掩蔽作用。 盎 毛 声7 t z 髻 蜒 图1 掩蔽效应 4 ,临界频带 当细致地分析人耳是如何进行频谱分析时,临界频带的概念被引入了。研究 发现。位频转换( f r e q u e n c y - t o p l a c et r a n s f o r m ) 发生在人的内耳。带有各自独立的神 经感知系统的人耳的耳蜗不同位置对应了不同的临界频带。在实际应用中,临界 频带可以大致定义为主观感知发生突变的频率带宽。一个纯音可以被以它为中心 频率,而且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该 纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称运一带宽为临界带 宽,单位为b a r k 。 临界带宽有许多近似表示,一般在低于5 0 0 h z 的频带内,临界帮宽约为1 0 0 h z , 在高于5 0 0 i - i z 时,临界带宽约为中心频率的2 0 。临界频带的位置不同定,以任 何频率为中心,都有一个临界频带。连续的临界频带序号记为临界频率带,它与 耳蜗中本底膜的长度呈线性关系,而与声音频率呈近似对数关系。 7 山东大学硕士学位论文 在实际的音频编解码系统中,常常采用离散的带通滤波器来模拟临界频带。 5 人耳的声像定位特性 经过研究,普遍认为人耳对声音的定位机理,是由于听者自己的头部和躯干 对入射声波的衍射作用,以致声波到达双耳时形成了声级差a p 和时间差t ,他 们都足声源的方位和频率的函数表示。研究表明,在中低频( f 小于1 5 0 0 h z ,双耳 t 是定位的主要因素;中频时( f 为1 5 0 0 i z 到4 k h z ) ,t 和a p 共同起作用;而高 频时( f 约大于4 k t 4 z ) ,则p 是主要因素。高频时方位的决定取决于信号包络在内 耳延时以及人耳所能感受到的信号频率。包络变化很快的时域声音信号,在定位 时作用大,而包络比较平稳的声音信号,对于人耳的定位影响很小。 目前的音频压缩编码算法主要分为两类:波形编码和感知编码。波形编码以声 音波形为基础,使重建声音波形尽可能接近原始波形,这类信号压缩编码器的设 计可以认为与信源无关。感知编码并不要求重建声音波形与原始波形完全一样, 而是要保证对于人耳来讲,重建声音听起来与原始声音一样。感知编码算法利用 对人听觉心理的先验知识,丢弃了原始声音中人耳无法感知的部分。 现在绝大多数的高质量音频压缩编解码算法都是基于感知编码的。同时,它 们又利用了信息论中的嫡编码原理,极大的消除了原始信息中的统计冗余,获得 了较高的压缩比和较好的重建音质。 1 3 音频编码技术的发展历史及现状 自从p c 支持多媒体以来,有几种音频编码标准得到了广泛的应用,数字音 频编码技术无论对多媒体通信,多媒体广播、消费类电子都有其重要性下面介绍 一下音频编码技术发展中比较突出的几个标准 1 m p e g 1 音频编码标准f 1 1 自从1 9 5 9 年以来,m p e g ( 运动图象专家组) 承担了视频和音频压缩技术的 标准化工作。这个小组制定的音频编码标准是数字音频压缩领域中的第一个国际 标准。1 9 8 9 年,m p e g 小组在征求了1 4 种音频编码方案后,最后确定了2 种:一 种是m u s i c a m ( m a s k i n g p a t t e r na d a p t e du n i v e r s a ls u bb a n di n t e g r a t e dc o d i n ga n d m u l t i p l e x i n g ,自适应掩蔽模式通用子带综合编码与多路复用) ,另一种是 0 山东大学硕士学位论文 a s p e c ( a d a p f i v e sp e a m l p er c e p t u a l e nt r o p y co d i n g ,自适应频谱感知嫡编码) 。基 于这两种算法于1 9 9 2 年制定了m p e g - i 标准。m p e g - l 按照算法的复杂度和压缩 比分为i ,1 1 1 i i 三个层次。第1 层的复杂度最低,是m u s i c a m 方案的简化形式, 以每声道1 9 2 k b p s 的速率提供高质量的声音,在不强调低码率的情况下应用。第 层具有中等复杂度,它使用比第1 层更为精密的量化,与m u s i c a m 方案几乎 完全相同,可在1 2 8 k b p s 的码率下提供近乎c d 质量的声音。第1 i i 层结合了 m u s i c a m 和a s p e c 的优点,复杂度最高,编码效果也最好,可在低于每声道 1 2 8 k b p s 的码率下获得极高品质的音频。第i 层使用了心理学模型i i 。可切换的混 合滤波器组,比特池缓冲技术、先进的预叵f 声控制、非均匀量化和墒编码技术。 m p e g l 等级i i i 在商业上获得了巨大的成功,这就是我们熟悉的m p 3 1 1 l 】。 m p 3 是目前流传最广的一种音乐压缩格式其c d 般的音质、高压缩比、开放性 和易使用性使之深受好评,尤其在i n t e m e t 网络上广为流行,很多硬件厂商还推出 了硬件设各m p 3 播放器,成为目前市场上音频播放器的主流。 2 d o l b y a c 0 2 ,- 3 美国杜比( o o l b y ) 实验室从1 9 8 0 年开始对数字声频技术进行研究,重点是降低 比特牢技术。它先后研制了a c - 1 ( a u d i oc o d i n g - 1 ) 。a c - 2 和a c - 3 技术。d o l b y a c - 2 是6 0 年代中期开始发展的,用于立体声,数码率为单声道,1 2 8 k b p s 和1 9 2 k b p s 可 变。它利用时域混叠抵消( t d a c ) 技术和m d c t 1 m d c t 变换。1 9 9 1 年d o l b y 发明了a c - 3 ,通道数由l 到5 ,再加一个低频增强通道。a c - 3 算法允许数据率在 3 2 6 4 0 k b p s 内调整,可组合成各种通道组合,在低比特率时提供良好的音质,1 9 9 3 年被美国a t s c 确定为北美h d t v 标准的声音编码系统。典型的5 1 ,通道,数码率 是3 8 4 k b p s , 每声道6 4 k b p s 。a c - 3 还用于电影、d v d 等。 3 d t s d t s ,数字影院系统( d i g i t a l t h e a t e rs y s t e m ) ,是在杜比数字环绕声出现后的 又一种数字环绕声系统。目前美国使用d t s 作为其电影原声带数字音频编码方式 的电影公司,已经超过了采用杜比数字系统的电影公司。 d t s 之所以受到如此青睐,是由于萁对高采样率、高量化精度的数字信号采 用了灵活、先进的相干声学( c o h e r e n t a c o u s t i c s ) 编码技术。根据实际应用,d t s 具 山东大学硕士学位论文 有单声道、双声道至s 声道可供选用,分离式的5 1 声道可以混音成为“矩阵式两 声道。d t s 每声道的采样频率最低为8 k h z ,最高为1 9 2 k h z ;量化精度范围为1 6 2 4 b i t ;压缩率范围为l :1 - 4 0 :1 ,总数据率范围为3 2 - 4 0 5 6 k b p s 。另外相干声学算法还 可以实现高达1 3 8 d b 的动态范围。 d t s 作为一种新型的数字环绕声技术,不但能胜任a v 的重托,更能提高c d 音乐的音质,完全可以和杜比数字制式在家庭视听方面想抗衡。 4 m p e g 2b c 、m p e g - 2l s f 和m p e g - 2a a c t 3 1 针对m p e g - j 只能进行单声道或双声道编码的局限性,m p e g 小组制定了多 声道扩展的音频编码标准m p e g - 2b c ,它能够与已有的m p e g - 1 系统向下兼容。 与此同时,m p e g 小组还制定了一个在较低采样频率( 6 k h z ,2 2 5 k h z ,2 4 k h z ) 时效率高于m p e g - 2 的音频编码标准m p e g - 2l s f 。1 9 9 4 年1 1 月,m p e g 完成了 m p e g - 2b c 和m p e g 2l s f 的制定。对五个全带宽声道,m p e g - 2b c 在数据率 为6 4 0 - 8 9 6 k b p s 的情况下提供了高品质的音频。 能够工作于6 4 k b p s e h a n n e l 的系统有m p 3 ,a c - 3 等,经严格测试存此码率时, 它们的重建音质都达不到i t u r 和欧广联( e b u ) 关于听不出与c d 有任何音质 变差的作为无线广播的要求,所以在1 9 9 4 年m p e g - 2 通过的同时m p e g 组织决定 研究和制订新的要达到i t u r 和e b u 要求的音频编码,新的音频编码不要求向下 兼容,命名为a d v a n c e d a u d i oc o d i n g 即a a c 。有许多著名公司和大学参加了a a c 标准的制订。 其中有美国的d o l b yl a b ,l u c e n tb e l ll a b 。a t & tl a b ,德国的 f m u n h o f e r1 1 s ,u n i v e r s i t yo f h a n o v e r , 日本的s o n yc o , n e c 等。并很快地于1 9 9 7 年纳入到m p e g 2 标准体系,成为其第七部分i 。a a c 的编码效率和商业价值被 越来越多的国家广播机构和大公司青睐,日本无线电工业协会在1 9 9 8 年就决定日 本的地面电视、有线电视、卫星电视一律采用a a c 音频编码。p a n a s o n i e p h i l i p s , s a n y o ,l i q u i d 等公司已推出基于a a c 的便携式产品或声源。可以预想a a c 将有 着广阔的发展前景。 5 m p e g - 4 音频编码标准l s l m p e g 目前正在发展的m p e g 4 标准,目标是提供未来的交互式多媒体应用。 山东大学硕士学位论文 m p e g 4 制定出与以往不同的、具有高度灵活性和可扩展性的新一代国际标准。较 之以前的音频编码标准,m p e g - 4a a c 增加了许多新的关于合成内容及场景描述 等领域的工作,相对于m p e g 2a a c 增加了诸如可分级性( s c a a b i l i t y ) 音调 ( p i t c h ) 变化、可编辑性及延迟等新功能,更增舔了l t p , p n s 等处理模块,提高了编 码效率。m p e g - 4 将以前发展电好但相互分离的高质量音频编码、计算机音乐及合 成语音等第一次融合在一起,在诸多领域内给予了高度的灵活性。 m p e g - 4 关于音频信号编码集中在m m 3 :传统的音频编码即所谓的“自然音频” 和新颖的“结构音频”以及“合_ | 菠,自然混合编码匕“自然音频”编解码的码率可 以从每声道2 k b p s 至几百k i p s ,相应地定义了三种编码工具:参数编码 ( h v x c h i l n ) 、线性预测编码( c e l p ) 和时间,频率编码( g a ) 。本论文涉及的a a c 编解码方法即为时问,频率编码( g a ) 部分的核心部分“l 。a a c 方法中当码率达 到6 4 k b i t s 及其以上时,觯码音频效果达到了e b u ( e u r o p e nb r o a d c a s t i n gu n i o n ) 的 “无差别质量”( i n d i 或i n g u i s h a b l , q u a l i t y ) 检测。 目前,国际性数字无线电广播联盟( d r m ) 已将m p e g - 4 a a c 用于l w , m w , s w 数字音频广播“。m p e g - 4 音频部分仍然在发展之中,标准也己发布了多版。 近几年,a a c 算法吸纳了s b & p s 等先进的处理方法,形成了所谓h e a a c 和h e a a c v 2 ”,由于手头资料的不足和时间能力的有限,这些内容还在了解之中,没 有在本文中涉及。 1 4 本论文所傲的主要工作 m p e g - 4 音频部分有多种a o ( a u d i 0o b j e c t ) 类型,对应于a a c 的有 a a cm a i n ( 主a o ) ,a a c _ l c ( ( l o w - c o m p l e x i t yp r o f i l e ) ,a a c - l t p ( l o n g t e r m p r e d i c t i o n ) ,a a cs s r ( ( s c a l e a b l es a m p l i n gr a t e ) 本文完成了其中的前三种a o 类型的解码工作。他们之间有一定的包含关系: 山东大学硕士学位论文 囊1 澡 a a cm a i na a cl ca a cu 限 解码文件类塑 a a cm a i n可解 不可解不可解 a a cl c 可解可解可解 a a cl t p不可解 不可解 可解 本文完成的主要工作是: 深入理解m p e g - 4 a a c 标准,剖析a a c 码流格式,完成a a c 解码器的软件 设计,并对其中的占用资源较多的部分进行优化娃理。 山东大学硕士学位论文 第二章a c 有效负载解析设计 目前应用于a a c 码流的文件格式主要有三种:a d i f , a d t s ,m 4 f f 。其中a d i f 和a d t s 是a a c 专用的,m p e g - 4 其它的编解码方法不能使用该格式。这主要是 因为这两种格式是由m p e g 0 2 a a c 继承而来换言之,是为了实现与m p e g - 2 a a c 的兼容,必需完成对这两种格式的解析。 2 1 音频数据交换格式 a d i f ( a u d i od a t ai n t e r c h a n g ef o r m a t ) 文件结构比较简单,一个a d i f _ s c q u e a c c 由一个固定文件头a d i f _ h e “l e r 和数据包r a w _ d a t a _ s t r e a m 构成,数据参数在文件中 不能改变,所以灵活性有限。 1 ) a d f f _ h e a d e r o a d l f _ l d c o p y r i g h ti d j ” u e n t 暇c o p y r i g h ti d j x e s e n t ) c o p y r i g h t _ ;d o d g l n a lo o p y h o m e b l t s t r e a m _ t y p e b l t r a t e n u m _ p r o g r a m _ c o n f i g , e l e m e n m f o r ( i ;0 :i n u m _ p r o g r a m _ c o n f i g _ e l e m e n t s + 1 :h ) i f ( b i t s t r e a mt y p e = = 0 、 e d l f _ b - - 柏r f 训n p r o g 旧m _ c o f t f 咖l e m e n “) ” 表2 主要端口定义 b i t s t r e s me l e m e n t sf o r a d i fd e f i n i t i o n s a d i f 封 0 x 4 1 4 4 4 9 4 6 a d i f 的a s c 表示表明该文件为a d i f 格式文件 c o p y r i g h ti dp r e s e n t表明在随后的码流中是否出 觅c o p y r i g h u d c o p y d g h u d 8 - b i tc o p y r i g h t _ i d e n t m e r j l 【抖b n c o p y r i g h t _ n u m e r 一其 中c o p y d g h t _ i d e n t w m r 尾由s c2 9 指定的注册权威给出 o r i g i n a l _ c o p y h o m e 表明这部分足原创还是拷贝内容 山东大学硕士学位论文 b i t s t r e a m _ t y p e ”伊:同定比特率b i t s t r e a m ”1 - | = 可变比特率b i t s t r e a m b i t r a t e 固定比特率比特流的比特率或者可变比特率比特流的峰 值比特率若为0 ,表示比特率未知。 n u f n _ p 嘲倍m 0 0 n f i g - e i e m e m当前日d o 鹊n 。e ( ,的p r o g r a mc o n 的e l e m e n t 的数日 a d i f _ b u f f e r _ f u l l n e l m s 在编码a d f fs e q u e n c e 的第一叶- r a wd a t a _ b l o c k 结柬后 编码器b u f f e r # j 余的b n 数 p r o g r a mc o n f i g _ e l e m e n t 0 是a a c 八种语法元素之一。a a c 有缺省的声道配置, 并由c h a n n e l c o n f i g u r a t i o n 给出,见下表。若c h a t m e l c o n f i g u r a t i o n 为0 ,这该音频 的声道配置由p r o g r a m _ c o n f i g _ e l e m e n t 说明。 裹3m p e g - 4 a a c 缺省声遭配置 r a l l l en u m b e ro f c h a n n e lc h a n n e l t os p e a k 日m a p p i n g 0 i 南p r o g r a mc o n f i g _ e l e m e n t 定义 1lc e l l t e rf r o n ts p e a k e r 2 2 l c f l r i g h tf r o n ts p c a k e r s 3 3 n f r o n ts p e a 溉 l e 屯咄h 【f r o ms p e w e r s 44t e n o r f r o n ts p e a k c r , 1 e f k n 出m 钌f i o ms 筘a k c 氇 “ws u r r o u n ds p e a k e r s 5 5 c a l i e r f r o n ts p e a k e r , i , f f t , 嘞tf l o r as p e a k e r s , 1 硪s u n o u d d , g l i ts u r r o u dr s p e a k e r s 65 + i c e m e rf r o n ts p a i h l k 屯r i r # tf i - o n t 耳峨岫 l e f ts u r r o u n d , 一g h ts m r m m d 他盯s p c “【e 璃 f r o n t l o w f f e q u e n c y d 触s p e a r e r 77 十l c e n 。f r o n t 邛鼬l 【e r l e f i ,r i g h t c e n t g r f r o n ts p c 越 i e f lr i e d a t o u t s i d ef r o n ts p e a k e r s , l e l is m r o m d r i o ts t a t o t t n dr e 口$ p c a k 蝇 f r o ml o wm w i c ye f f e c t ss p e a k e r 8 1 5r e s e r v e d 2 ) r a wd a t as t r e a m 0 是由多个r a w _ d a t ab l o c k 组成的序列。在a d i f 文件格式中文 件头只有一个。之后只有r a w d a t a b l o c k 数据而不再由h e a d e r 信息。对于 l a wd a t ab l o c k 的解析见2 4 。 山东大学硕士学位论文 2 2 音频数据传输码流 a d t s ( a u d i od a t at r a n s p o r ts t r e a m ) 格式更为灵活,一个a d t ss e q u e n t 2 0 包含 多个a d t sf r a m e o o ”。每个a d t s _ f r a m e o d 日- - 个固定帧头a d t s f i x e d h e a d e r ,一个可 变帧头a d t s _ v a r i a b l e _ h e a d e r ,一个校验模块a d t s e r r o r c h e c k 和多个r a w d a t a b l o c k 构成。 1 ) a d t sf i x e dh e a d e r 0 固定帧头的内容在每帧是不变的,方便随即读取等特殊需要时能够获得所需 的信息。 a d t s _ f i x e dh e a d e r 0 f s y n c w o r d i d l a y e r p r o t e c t i o n , a b e e n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论