已阅读5页,还剩56页未读, 继续免费阅读
(通信与信息系统专业论文)mp3编码器算法x86和arm平台的移植.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 互联网和多媒体技术的飞速发展,全面地引导着音频信号压缩编码的研究开 发。在众多的音频压缩标准中,m p e g 1l a y e r 3 ( m p 3 ) 编解码器凭借其较高的压 缩比和良好的性能,成为当前最流行、应用最广泛的音频压缩格式。尽管m p 3 解 码算法已经广泛应用在许多便携和手持设备上,但由于编码算法的复杂度远远超 过了解码算法,所以m p 3 编码算法在很多硬件平台上的应用依然是一个很大的挑 战。本论文的目的就是将m p 3 编码算法移植至u x 8 6 和a r m 这两个主要的硬件平台 上。 本文首先介绍了m p 3 编码的算法标准,并详细分析了算法中的心理声学模型、 子带滤波器组、修正的离散余弦变换m d c t 、非均匀量化和h u f f m a n 编码等几个主 要模块。接下来采用了一个先进的心理声学模型替代原模型以提高m p 3 算法的编 码质量,此外还对子带滤波器组和量化模块进行了改进优化。为了下一步将改进 后的m p 3 编码算法移植至u x 8 6 和a r m 平台,又采用了其他几种方法来优化编码性 能,这些方法主要有简化编码算法结构、c 代码优化、编译器配置优化等。并且在 x 8 6 平台上还使用了s s e 和s s e 2 的指令优化。最后对浮点的m p 3 编码算法进行定点 化处理之后,将其移植到了a r m 平台。测试和评估结果表明:经过改进优化后的 m p 3 编码算法具有较好的编码质量,并且其编码性能在两个平台上也有显著的提 高,所以本算法具有广阔的应用前景。 关键词:m p 3 编码算法心理声学模型子带滤波器组a 跚处理器 a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dm u l t i m e d i at e c h n o l o g y ,t h er e s e a r c h a n dd e v e l o p m e n to fa u d i oc o m p r e s s i o na n dc o d i n gh a v eb e e nt h o r o u g h l yc o n d u c t e d a m o n ga l lt h ea u d i oc o m p r e s s i o ns t a n d a r d s ,m p e g - 1l a y e r 3 ( m p 3 ) a u d i oc o d e ci st h e m o s tp o p u l a ra n du s e da u d i oc o m p r e s s i o nf o r m a tb e c a u s eo fi t sh i g hc o m p r e s s i o nr a t i o , w o n d e r f u lp e r f o r m a n c e a l t h o u g hm p 3d e c o d e ra l g o r i t h mh a sb e e ni m p l e m e n t e da n d u s e dw i d e l yi nal o to fp o r t a b l ea n dh a n d h e l dd e v i c e s ,t h em p 3e n c o d e ra l g o r i t h mi s s t i l lab i gc h a l l e n g ef o rm a n yh a v d w a r ep l a t f o r m s ,b a c a u s et h ec o m p l e x i t yo ft h e e n c o d e ri sm u c hh i g h e rt h a nt h a to ft h ed e c o d e r t h ep u r p o s eo ft h et h e s i si st op o r t i n g t h em p 3e n c o d e ra l g o r i t h mt ot h et w om o s t l yu s e dp l a t f o r m s ,x 8 6a n da r m f i r s t l y ,t h ea u d i oe n c o d i n ga l g o r i t h mo fm p 3s t a n d a r di si n t r o d u c e d ,i nw h i c h s e v e r a lm a i nm o d u l e si nt h ea l g o r i t h m ,i n c l u d i n gp s y c h o a c o u s t i cm o d e l ,s u b b a n df i l t e r b a n k s ,m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ( m d c t ) ,q u a n t i z a t i o na n dh u f f m a n e n c o d i n g ,a l ed e t a i l e d l ya n a l y z e d s e c o n d l y ,i no r d e r t oi m p r o v et h ee n c o d i n gq u a l i t yo f m p 3e n c o d e ra l g o r i t h m ,a na d v a n c e dp s y c h o a c o u s t i cm o d e li su t i l i z e d ,i na d d i t i o n , o p t i m i z e ds u b b a n df i l t e rb a n k sa n dq u a n t i z a t i o na n de n c o d i n ga r ea l s oa p p l i e d f o r p o r t i n go ft h eo p t i m i z e da l g o r i t h mt o t h ex 8 6a n da r mp l a t f o r m s ,s e v e r a lo t h e r m e t h o d sh a v eb e e nu s e d ,s u c ha se n c o d i n ga l g o r i t h ms t r u c t u r es i m p l i f i c a t i o n ,cc o d e l e v e lo p t i m i z a t i o n ,c o m p i l e ro p t i o n so p t i m i z a t i o na n ds oo n , s s ea n ds s e 2i n t r i n s i ca r e a l s ou t i l i z e df o rx 8 6p l a t f o r m f o rp o r t i n gt oa r mp l a t f o r m ,t h ee n c o d e ra l g o r t h i m w r i t t e ni nf l o a t i n g - p o i n tcc o d eh a v et ob er e w r i t ew i t l lf i x e d - p o i n tcc o d ef i r s t t e s t a n de v a l u a t i o nr e s u l t sh a v es h o w nt h a tt h ei m p r o v e dm p 3e n c o d i n ga l g o r i t h mi sg o o d i nq u a l i t ya n di t sp e r f o r m a n c eh a sb e e ng r e a t l yo p t i m i z a t e do nb o t hp l a t f o r m s ,s oi tc a n b eg e n e r a l l yu s e di nm a n ya p p l i c a t i o n s k e y w o r d :m p 3e n c o d i n ga l g o r i t h m p s y c h o a c o u s t i c sm o d e l s u b b a n df i l t e rb a n k sa r m p r o c e s s o r 第一章绪论 第一章绪论 1 1 引言 从上世纪末到跨入2 1 世纪,伴随着互联网和通信技术的飞速发展,以及数字 化技术的出现和应用,给人类社会带来了深远的影响和便捷的服务。数字时代的 到来,不但给人们带来了高质量的画面,也带来了高质量的声音。人们如今生活 在一个数字化的世界中,生动逼真绚丽多彩的视听享受、足不出户方便实用的网 上购物、网上可视电话系统等,多媒体通信技术己经从方方面面影响了我们的日 常生活。其中音频信号处理技术称得上是应用最为广泛的数字技术之一,c d 、m p 3 等科技产品早己走进千家万户,音乐手机、便携终端也已随处可见。与此同时, 与之相关的数字音频压缩编码技术也得到了充分的发展。 那么音频信号为什么要进行压缩呢? 这是因为原始的音频信号具有非常庞大 的数据量,而我们的存储设备容量和网络带宽有限。为了存储和传输较多的信号, 就只有设法减少每个信号的数据量,即进行压缩。拿c d 音质为例,根据人耳的 频响范围2 0 h z - 2 0 k h z ,为了高保真效果,音频带宽必须达到2 0 k h z ,根据奈奎 斯特采样准则进而立体声信号的数字化采样率至少要达到4 4 1 k h z ,如果用1 6 比 特进行量化,因此一套立体声音乐的码率大约为1 4 1 m b p s 【1 1 。这样高的数码率, 无论是传输和存储都是难以接受的。所以音频作为多媒体的主体,对其进行压缩 显得尤为重要。 随着技术的不断进步,音频信号压缩编码的研究和应用也迅速发展起来,人 们都在积极地研究和开发具有低复杂度、高压缩比、以及高保真音质的音频编解 码算法。与此同时,各类数码娱乐消费产品也日新月异,这些消费产品具有的便 携性、娱乐性和经济性等优点更是受到人们特别是年轻人的关注,其中最具代表 性的就是:便携式m p 3 播放器以及车载音乐播放器等,并逐渐朝着高性能、低价 格、低功耗的方向发展。因此,笔者选择m p 3 编码器作为本论文的研究课题。 1 2 音频压缩的背景及现状 对音频信号压缩编码的研究由来己久。自从1 9 3 7 年a h r e e v e s 提出脉码调制 ( p c m ) 以来,开创了语音数字化通信的历程,在6 0 多年的时间里,语音编码技 术取得了迅速的发展【2 1 。 1 2 1 音频压缩算法分类 音频压缩编码的算法很多,总的来说按照编码质量分为无损压缩和有损压缩 m p 3 编码器算法x 8 6 和a r i d 平台的移植 两大类,如图1 1 所示【1 】【2 1 【3 】。 数字音频压缩算法 无失真编码一熵编码 算术编码 f 霍夫曼编码 i 行程编码 有失真编码 参数编码一线性预沏j l p c 波形编码 f 脉码调制p c m 全频带编码 瞬时、准瞬时压扩p c m l 自适应差分a d p c m 子带编码 急曩詈喜裟效应, f 矢量和激励线性预澳, , w s e l p 混合编码 多脉冲线性预测m p l p i 码本激励线性预澳, t j c e l p 图1 1 数字音频压缩算法分类 按照音频压缩编码方式的不同又可划分为时域编码( 包括预测编码、增量编 码) 、频域编码( 包括变换编码、子带编码) 、统计编码( 熵编码、哈夫曼编码) 以及多种技术相互融合的混合编码等。对于不同的压缩编码方法,各自的算法复 杂度( 包括时间复杂度和空间复杂度) 、重建音频信号的质量、算法的效率( 即 压缩比) 、延时等都有很大的不同,因此不同压缩技术其应用场合也各不相同【。 1 2 2 主流音频压缩标准 当前出现的主流音频压缩标准非常多,主要有以下几种标准: ( 1 ) d o l b y a c - 3 1 9 9 4 年日本先锋公司宣布与美国杜比实验室合作研制成功种崭新的环绕 声制式,并命名为“杜比a c 3 ”( d o l b ys u r r o u n da u d i o c o d i n g 3 ) 。l9 9 7 年初,杜比 实验室正式将“杜比a c 一3 环绕声”改为“杜比数码环绕声”( d o l b ys u r r o u n dd i g i t a l ) , 常称为d o l b yd i g i t a l 。杜比a c 3 提供的环绕声系统由5 个全频域声道和1 个超低 音声道组成,被称为5 1 声道。a c 3 技术是由杜比a c 1 、杜比a c 2 发展而来的, 第一章绪论 它继承了a c 2 的许多优点,如窗处理、变换编码、自适应比特分配等,同时也 克服了它们的不足和局限。在5 1 声道的条件下,可将码率压缩至3 8 4 k b p s ,压缩 比约为1 0 :1 。a c 3 标准是目前为止在广播电视领域应用最为广泛的数字音频压 缩技术标准,它具备单声道、立体声和5 1 环绕声功能,在数字高清电视、d v d 、 影院系统等多方面得到广泛的应用。目前美国a t s c 、欧洲d v b 、澳大利亚等国 家数字电视纷纷采用a c 3 作为数字电视的伴音标准【l j 。 ( 2 ) m p e g 1a u d i o 标准 在音频压缩标准化方面取得巨大成功的是m p e g ( m o v i n gp i c t u r e se x p e r t s g r o u p ,移动图像专家组) 音频标准。其中m p e g 一1 标准( i s o i e c l l l 7 2 3 ) 于1 9 9 2 年正式出版,是针对1 5 m b p s 以下数据传输率的数字存储媒体运动图像及其伴音编 码设计的国际标准【4 】。它是世界上第一个高保真音频数据压缩标准【1 1 。 在m p e g 1 压缩中,按算法复杂程度规定了三种模式,即层i 、层i i 和层。 层i 压缩比为4 :1 ,编码简单,有最低的复杂度,主要应用于数字盒式录音带; 层i i 压缩比为6 :1 8 :l ,算法复杂度中等,主要应用于d a b ,v c d ,d v d ;层 i 就是应用最为广泛的m p 3 ,压缩比为1 0 :1 1 2 :l ,编码算法最复杂。m p 3 用1 1 2 1 2 8 k b p s 的码率就能表现出直逼c d 的音质( c d 的码率为1 4 m b p s ) 。m p 3 广泛应用于数字无线电广播的发射和接收、数字声音信号的制作与处理、声音信 号的存储、i n t e m e t 传输、消费电子产品( m p 3 播放机) 等方面【1 1 1 4 1 5 1 【6 】。 ( 3 ) m p e g 一2a a c m p e g 2 先进音频编码( a d v a n c e da u d i oc o d i n g ) 简称m p e g 2a a c 。它放弃了 原有的兼容性要求,显著的提高了编码的效率。1 9 9 4 年m p e g 一2a a c 成为一个 国际标准( i s o i e c1 3 8 1 8 7 ) l l j 。 a a c 最多可以支持4 8 个声道,取样率从8k h z 至l j 9 6k h z 。a a c 的语音分辨率比 m p 3 高。一般而言,9 6k b p s 的a a c 之语音品质优于或等同于1 2 8k b p s 的m p 3 。因此, a a c 可以在低速的网络内传输语音流,而且不会影响语音的品质。a a c 的音频算 法在压缩能力上远远超过了以前的一些压缩算法( 比如m p 3 等) 【l 】【4 】【5 】【7 1 。总之, a a c 可以在l :匕m p 3 文件缩d 、3 0 的前提下提供更好的音质。但目前由于专利使用费 的限制,支持a a c 的产品很少,a a c 在目前并没有广泛的使用。 ( 4 ) m p e g 一4h e a a c m p e g - 2a a c 通过进一步改善,增加了p n s ( p e r c e p t u a ln o i s es u b s t i m t i o n , 知觉噪声代替) 等技术,发展成为m p e g 4 音频标准,m p e g 4h e a a c ( h i g h e f f i c i e n c ya d v a n c e da u d i oc o d i n g ,高效先进音频编码) 是由a a c 主体,加上s b r ( s p e c t r a lb a n dr e p l i c a t i o n ,频带复制) 技术组合而成的编码算法。s b r 是数字音频 中一种提高效率的压缩手段,它可以大大提升使用低码率压缩时的声音质量。 h e a a c 继承了a a c 的所有优点,利用s b r 这一种独特的带宽扩展技术来改善 4 m p 3 编码器算法x 8 6 和a r m 平台的移植 音频中高频段的失真现象,而所谓的高效率在于编码器仅需对低频部份编码,高 频部份利用低频信号,配合一组数据量极少的参数来重建,s b r 能够使编码器仅 以一半的比特率传送同质量的音频信号l l j 。 m p e g 4h e a a c 在许多国际标准化组织中都已经被广泛采用。在3 g p p ( 3 r d g e n e r a t i o np a r t n e r s h i pp r o j e c t ,第三代移动通信合作伙伴计划) 中,m p e g 4 h e a a c 被指定为高效音频编解码标准,新一代的数字广播d a b + 中也采用 h e a a c 作为信源编码技术。此外,它还在3 g p p 2 、i s m a ( i n t e m e ts t r e a m i n gm e d i a a l l i a n c e ,互联网流媒体联盟) 、h d t v 、d v b 、d v d 论坛、d r m ( d i g i t a lr a d i o m o n d i a l e ,数字无线广播) ,以及其他许多标准化组织、论坛中都被采纳为其规 范之一【l 】【7 1 。 ( 5 ) e a a c + e n h a n c e da a c + ( e a a c + ) 是在2 0 0 4 年时,纳入3 g p p 的第6 版标准中。它 是由m p e g - 4a a c 、s b r 和m p e g - 4p s ( p a r a m e t r i cs t e r e o ,参数立体声) 技术 组合而成。“参数立体声”技术能够在低传输率中,进行“立体声 的编码,基 本原理类似s b r 。e a a c + 是新一代的应用于手机的最优化的音乐格式,接近c d 的音质,但是比m p 3 有更高的压缩比【7 】【8 】【9 】。 其他常见的音频压缩标准还有a m r 家族的a m r 、a m r w b 、a m r w b + , 以及d t s ( d i g i t a lt h e a t e rs y s t e m s ,数字影院系统) 、o g gv o r b i s 等【l 】【7 1 。 1 3 研究目的和意义 在众多的音频压缩标准中,m p e g ll a y e r 3 ( m p 3 ) 压缩算法以其优越的性能、 较好的音质与算法复杂度的极佳折衷,成为当前最为流行的音频压缩格式。同时 压缩比可达到1 2 倍左右,特别适合于互连网上的传输和个人设备上的存储。再看 一下m p 3 所能达到的质量,虽然相对于c d 音质而言它是种有损压缩,但由于采 用了先进的心理声学模型,所以对于一般音乐爱好者的耳朵来说是无法分辨的【1 0 】。 m p 3 音频编码还可以选择不同的码率进行压缩,提供了在数据大小和声音质 量之间权衡的一个范围,具有更好的使用价值。现在m p 3 几乎就是音乐文件的 代名词了。由于在技术上的优越性以及高度的开放性和免费性,m p 3 音乐已成为 最流行的音乐格式,各式各样的m p 3 播放软件不但在互联网上流行还全面进入了 个人便携式消费品领域。这些需求使得对m p 3 编解码技术进行进一步的研究具有 重要理论意义和实用价值【l 。 近年来,国内外在m p 3 压缩编码领域进行了大量的研究,对一些重要的函数 模块都提出了一些改良算法。同时为了更好地控制文件大小和音频的关系,又出 现了可变比特率( v a r i a n tb i t r a t e ,v b r ) 方式编码的m p 3 ,也就是非固定的比特率, 第一章绪论 音频编码软件在编码时根据音频数据的复杂程度即时确定使用什么比特率,这是 以质量为前提兼顾文件大小的编码方式,由于编码的结果是在保证音质的同时又 照顾了文件的大小,所以大受欢迎,具有良好的发展前景。 首先,现在的m p 3 编码器基本结构都包括了心里声学模型、子带滤波、量化 编码等几个关键模块,这几个模块虽然经历了大量的改进和优化,已经比较成熟 了。但作为有损编码算法来说,随着人们要求的逐步提高,仍然有改进的空间, 可以得到更快的编码速度和更好的编码质量,所以具有研究的价值和意义。 其次,在p c 上m p 3 的编码软件已经相当普遍,但在高性能、低功耗和低成本 的嵌入式设备上,还是有待挖掘,所以发展嵌入式平台上的m p 3 编码器势在必行。 目前a r m 处理器以其高性价比,丰富的外设资源,越来越受到手机、g p s 等各种 便携式设备研发人员的青睐,成为嵌入式开发的首选。 尽管m p 3 编码技术已经很成熟,但由于其自身的诸多优点,在相当长一段时 间内将还是人们进行音频压缩的首选。并且受限于现在的网络带宽和磁盘容量, 较好的音频压缩算法仍然非常实用。因此选择m p 3 编码器作为论文研究对象,对 其进行改进和优化,提高编码质量和实时性,仍具有很强的实用性和研究价值。 1 4 研究内容 本研究以开源m p e g 1 中音频压缩部分的代码为基础,在其上进行改进和优 化,开发出项目组所需的自己的一套编码器。相比于其他m p 3 编码器,作者所研 究的编码器能够得到m p e g 1 中的l a y e r1 、l a y e r 2 、l a y e r 3 ,即编码结果为 m p l 、m p 2 、m p 3 。同时以l a y e r3 为研究重点,首先改进其编码质量,得到高音 质的编码结果,然后优化编码速度,提高编码性能,最后再将该编码器移植到a r m 9 处理器上,作为后续研究的基础。 具体研究内容如下所述: ( 1 ) 深入学习m p 3 编码的基础知识,掌握m p 3 编码算法流程和理论,为改进 m p 3 编码器做准备。 ( 2 ) 在掌握m p 3 编码算法理论的基础上,从开源代码m p e g 1l a y e r3 入手,修 改调试得到正确的编码结果,然后测试其编码质量和速度,分析需要改进的内容。 采用一个新的心理声学模型替换原模型,来提高m p 3 编码器的质量,达到项目所 要求的音质标准。然后对量化编码、子带滤波器组模块进行改进,采用更快速的 实现算法,提高编码器性能。 ( 3 ) 在x 8 6 平台上,采用简化编码结构、模块的快速实现算法、c 代码优化、 s s e 及s s e 2i n t r i n s i c s 指令的优化、编译器优化选项优化等方法,大幅度的提高编码 速度,达到实时性的要求。 6 m p 3 编码器算法x 8 6 和a n 平台的移植 ( 4 ) 对改进优化后的m p 3 编码浮点程序,进行定点化将其转为定点代码,然 后再将其移植到删9 平台上作为后续研究的基础。 1 5 论文的结构安排 本论文结构及各部分内容安排如下: 第一章介绍课题背景、当前国内外的发展状况、论文研究的目的意义以及研 究内容。 第二章从理论分析出发,介绍了m p e g 1 标准,详细分析了m p 3 编码算法 压缩标准( i s o i e c1 1 1 7 2 3 、1 3 8 1 8 3 ) 的原理以及编码的主要过程。 第三章从实际工作出发,详细介绍了在x 8 6 上对m p 3 编码算法的改进和优 化工作。 第四章先介绍浮点程序定点化的方法,然后介绍嵌入式设备a r m 9 及其开发 环境a d s ,并向a r m 9 上进行移植与优化。 第五章是结束语,总结了选题所作的工作成果及现实意义,并对以后的前景 做了展望。 第二章m p 3 编码器算法原理 7 第二章m p 3 编码器算法原理 m p e g 标准是由i s o ( i n t e m a t i o n a lo r g a n i z a t i o n f o r s t a n d a r d i z a t i o n ) 和 i e c ( i n t e m a t i o n a le l e c t r o t e c h n i c a lc o m m i s s i o n ) 联合技术委员会i s o h e cj t c l 制定 的【l l 】【1 2 1 。m p e g 音频编码标准的提出,给不断发展中的音频压缩技术带来了质的 飞跃。特别是m p e g 1 音频标准中的l a y e r 3 算法,更是取得前所未有的成功,m p 3 编码器已经成为了音频编解码行业的一个里程碑,同时在市场上也得到了广泛的 应用。本章就对m p 3 编码算法进行详细的介绍。 2 1 音频压缩的基本原理 音频信号为什么能被压缩呢? 基本依据是音频信号的冗余度和人的听觉感知 机理。根据统计分析,音频信号中存在着多种冗余度,可以分别从时域和频域来 描述【2 】o 存在的时域冗余度主要有:幅度非均匀分布、信号样本问的强相关性、浊音 语音段具有准周期性、声道的形状及其变化比较缓慢、静止系数( 语音间隙存在 静音) 1 2 1 。 存在的频域冗余度主要有: ( 1 ) 非均匀的长时功率谱密度。在相当长的时间内统计平局,可得到长时功率 谱密度,呈现出强烈的非平坦性。从统计的观点看,这意味着没有充分利用给定 的频段,或者说存在着固定的冗余度。一般功率谱的高频能量较低,这恰好对应 于时域上相邻样本间的相关性1 2 1 。 ( 2 ) 语音特有的短时功率谱密度。语音信号的短时功率谱,在某些频率上出现 峰值,在另一些频率上出现谷值。而这些峰值频率,也就是能量较大的频率,通 常称为共振峰频率。它们决定了不同的语音特征。整个谱线也是随着频率的增加 而递减。更重要的是,整个功率谱的细节以基因频率为基础,形成高次谐波结构。 音频信号能被压缩编码的第二个依据是人类听觉的某些特性,即人的听觉感 知机理。人的听觉生理和心理特性对于语音感知的影响主要表现在【2 】: ( 1 ) 人类听觉系统具有掩蔽效应( m a s k i n ge f f e c t ) 。听觉系统特性曲线随不同声 压、不同频率声音的影响而变化的所谓掩蔽曲线( 或称掩蔽阈值) ,大致是一个单 音的声压级越高,对其周围频率声音的掩蔽作用越强。利用这一性质可抑制与信 号同时存在的量化噪声。 ( 2 ) 人耳对不同频段声音的敏感程度不同。听觉特性曲线即人耳可听到的最低 声压级与声音频率的关系曲线是非平坦的,大致在l k h z 左右的可闻阈最低,而 4 0 h z 以下的低频和1 6 k h z 以上的高频段可闻阈最高。人的听觉对低频段比较敏感, 8 m p 3 编码器算法x 8 6 和a r i e l 平台的移植 而对高频段不太敏感。即强的低频音能掩蔽同时存在的高频音。 ( 3 ) 人耳对音频信号的相位变化不敏感。人耳能做短时的频率分析,对信号的 周期性即音调很敏感但对信号相位感知却不敏感。人耳听不到的或感知很不灵敏 的声音分量都无妨视为冗余信号。 由于音频信号的冗余度和人的听觉感知机理,使语音压缩编码成为可能。 2 2m p 3 编码简述 m p e g 1 是m p e g 组织制定的第一个视频和音频有损压缩标准。m p e g 1 标准 于1 9 9 2 年正式出版,标准的编号为i s o i e c l l l 7 2 。m p e g 1 标准采用分为三层 的音频编码算法,而且三层次编解码算法按层次兼容【1 2 】【1 3 】。 其中l a y e r 3 采用每声道6 4 k b i t s ,用混合滤波器组提高频率分辨率,按信 号分辨率分成6 * 3 2 或1 8 * 3 2 个子带,克服平均3 2 个子带的l a y e r l ,l a y e r 2 在中 低频段分辨率偏低的缺点。主要用于i s d n ( 综合业务数字网) 音频编码。层 3 就是现在非常流行的m p 3 音乐格式,它可以把一个1 4 m b i t s 的立体声双通道数据 流压缩为3 2 k b i t s - - - ,3 8 4 k b i t s 且保持高保真的音质。但它有一个显著的缺点是由于 算法较复杂导致编码延迟较大【1 4 l 【1 5 l 。 表2 1m p e g 1 音频标准各层比较 等级压缩比算法复杂度主要应用 l a y e r l 4 :1 最低数字盒式录音带 l a y e r 2 6 :l 8 :1 中等d a b 、v c d 、d v d l a y e r 3 1 0 :1 1 2 :l 最高i n t e r n e t 传输、m p 3 m p 3 编码算法框图如图2 1 【l 引。整体来看,m f 3 编码流程大致分为时频映射( 包 括分析滤波器组和m d c t ) 、心理声学模型、量化编码三大功能模块,计算都十分 复杂,实现m p 3 编码的关键也在于这三个功能模块。 m p 3 编码是基于频域的编码。基本流程是【1 4 】【1 6 1 1 7 】【1 8 】:原始的模拟信号经过 a d 采样器后,转化为p c m 样本,作为m p 3 编码器的数据输入源。对输入的时域 音频信号p c m 进行了两路独立的频域转换处理。在上一路中,输入的数字音频信 号即p c m 采样信号进入子带滤波器组后,被分成3 2 个子带信号,m d c t ( 改进 离散余弦变换) 把子带的输出在频域里进一步地细分成l8 个频线,这样共产生5 7 6 个频线。对于快变信号做三次连续短窗( 1 2 点) 的m d c t ,以提高信号的时域分辨 率和控制前回音;对于慢变信号做一次长窗( 3 6 点) 的m d c t ,以提高信号的频域 分辨率。在下一路中,p c m 信号先经过f f t 变换,然后送入心理声学模型,计算 得到感知熵p e 值、掩蔽曲线以及信掩比s m r 。最后两路信号会合于比特分配模 第二章m p 3 编码器算法原理 9 块。然后对m d c t 变换后的频线利用心理声学模型计算出子带信号的信掩比,根 据这些信掩比决定分配给5 7 6 个频线的比特数,分别对他们进行比特分配和可变 步长量化;再将量化结果进行反量化计算量化噪声,看其是否在掩敝曲线以下; 否则反复调整比例因子( s c a l e f a c t o r ) ,重新量化,直到量化噪声达到最优,退出量 化循环,对量化结果进行h u f f m a n 编码。以提高编码效率,并与比特分配和量化 产生的边信息一起组成一帧数据。m p 3 编码的一帧数据包括两个组,每组有5 7 6 个频线和与他们相关的边信息,边信息被存储在每一帧的帧头中。对这样一帧一 帧组成的比特流,m p 3 解码器可以独立的进行解码,而不需要额外的信息了。 图2 1m p 3 编码算法流程图 2 3 心理声学模型 现在一些比较成熟的音频编码技术都使用了感知编码,感知音频编码通过模 拟人的发音器官的特性,利用人的听觉系统,运用分析技术和频率相关比特分配技 术,使量化噪声和听觉特性相匹配【1 9 1 1 2 0 1 。心理声学模型是音频感知编码的核心部 分,它的好坏直接影响了音频压缩效率和音频编码质量【2 1 1 。人的听觉系统对不同 频率信号的敏感度、不同频率处的噪音容忍程度有很大的差异,如何设计音频信 号的压缩算法使之更符合人的听觉效应是心理声学模型所要解决的问题。 2 3 1 心理声学模型i 心理声学模型主要就是围绕着如何确定m d c t 变换所需要的块类型( b l o c kt y p e ) 和如何计算整个频域上的掩蔽曲线( g l o b a lm a s k i n gt h r e s h o l d ) 来展开的。 心理声学模型i 的流程图如图2 2 所示t 2 2 1 ,对输入的音频信号,由汉宁窗函 数对其进行分割成独立的数据块,然后对各块进行快速傅里叶变换,对应于每个 变换的f f t 频率系数,计算其s p l 值。同时,由f f t 频率系数来区分声音信号和 l o m p 3 编码器算法x 8 6 和a r m 平台的移植 噪音信号,声音信号在临界频带内的位置确定后,抽取掩蔽分量,简化各临晃频 带的掩蔽阈值的计算。下一步,由掩蔽信号的频率及给出的掩蔽函数,确定各个 掩蔽信号的掩蔽阈值。最后,由各个临界频带的信号能量,减去该临界频带的掩 蔽阈值的最小值,之差就为该临界频带的信掩比s m r 。 时域音频信号 上 快速傅里叶变换f f t 上 计算各临界频带的s p l 0 计算音频信号的声音指标 , 计算掩蔽阈值 0 计算临界频带的信掩l 匕s m r 图2 2 心理声学模型i 的计算流程 模型i 算法比较简单,计算复杂度低,但是精度不高,特别在高频段失真较 大,主要应用于m e p g - ll a y e r l 和l a y e r 2 。而模型i i 比较复杂,但计算精度高,适 合应用于高保真的压缩编码,j z l i m p 3 和a a c i 2 1 1 。 2 3 2 心理声学模型i i m p 3 标准中的心理声学模型i i 在m p 3 的编码中扮演着非常重要的作用。其计算 流程如图2 3 所示1 2 。 ( 1 ) 快速傅立叶变换( f f t ) 在对输入信号做f f t 变换之前,先使用哈宁窗进行滤波,然后做2 次f f t 变换。 1 次为1 0 2 4 点的长f f t 变换,每次变换使用5 7 6 个新音频样本,另1 次为2 5 6 点的短 f f t 变换,每次变换使用1 9 2 个新样本,并重复做3 次变换( 3 1 9 2 = 5 7 6 ) 。2 7 欠f f t 的 运算结果将用来计算信号的声音含量指数。 ( 2 ) 计算不可预测指数 第二章m p 3 编码器算法原理 删铲均, 0 w 6 , 6 w 2 0 6 , ( 2 - 1 ) 2 0 6 w 1 0 2 3 其中,w 为频率值;c l ( w ) 由长f f l 系数计算得到;c j ( w ) 由短f f t 系数得到。当 c ( w ) 值为0 时,则说明当前的信号为可预测的周期信号;当c ( w ) 值为l 时,则说明 当前的信号为不可预测的自噪声信号。c ( w ) 可在 0 ,1 区间内任意取值。 图2 3 心理声学模型i i 的计算流程1 2 l l ( 3 ) 计算声音能量阈值 心理声学模型i i 是以频段( p a r t i t i o n ) 为单位计算阈值,每个频段宽带接近临界 频带宽度的1 3 。按音频信号的采用率不同一般分为5 9 , - 6 3 个频段,阈值的计算步骤 按如下: 计算每个频段的能量及不可预测指数: e b ( b ) = ,( w ) 2 , ( 2 2 ) 曲( 6 ) = c w ( w ) xr ( w ) 2 i ( 2 3 ) 其中,e b ( b ) 和c b ( b ) 分别表示频段b 的能量和不可预测指数。 由于掩蔽函数的作用,各频段之问的掩蔽效应也会互相影响,因此需要对每 个频段( t , j e b 和曲分别和掩蔽函数进行卷积运算来修正: m p 3 编码器算法x 8 6 和a r m 平台的移植 e c b ( b ) = e b x s p r d n g f ( z , ,乙) , c t b ( b ) = c b x s p r d n g f ( z , ,乙) , ( 2 4 ) ( 2 - 5 ) 其中,s p r d n g f ( z , ,z b ) 是掩蔽曲线函数,其意义表示临界频带毛在临界频带磊 处的掩蔽值。 将不可预测指数c t b 转换成可预测指数t b b ,t b b 所反映的信号特征恰好与c t b 相反,t b b 越大,则其对应的频段中声音信号越强。 = - 0 2 9 9 - 0 4 3 1 9 e 器 ( 2 - 6 ) 每个频段的s n r 值可以利用可预测指数进行插值计算得到: s n r ( b ) = m a x s n r b ,2 9 t b b ( b ) + 6 ( 1 - t b b ( b ) ) ( 2 - 7 ) 其中,s n r b 是心理声学模型i i 标准规定的最小信噪比值的补偿,常数2 9 和6 分 别为分别表示噪声信号掩蔽声音的信掩比和声音掩蔽噪音的信掩比。 计算每个频段的声音能量阈值: - s n r ( b ) n b b ( b ) = e c b ( b ) xn o r m ( b ) x1 01 0 ,( 2 8 ) n o r m ( b ) = 1 s p r d n g f ( z , ,z 6 ) ( 2 9 ) 由于预回声现象,能量阈值应该取前2 次计算值与本次计算值中最小的值,再 加上考虑到的静音阈值,最终频段b 的能量阈值应该为: t h r ( b ) = m a x q t h r ( d ) ,m i n n b b ( b ) ,2 x n b b , 一l ( 6 ) ,1 6 x n b b , 一2 ( 6 ) ) ) ( 2 - 1 0 ) 其中,q t h r ( d ) 为该频段的静音阈值,由心理声学模型i i 给出;n b b , 一,( b ) 、 n b b , 一,( 6 ) 分别表示为前2 次计算的阈值。 ( 4 ) 计算感知熵p e ( p e r c e p t u a le n t r o p y ) 尸e 一篆pc 捌d t h ( b ) l g ( 鬻1 2 ) ( 2 - 6 = o l , p e 值反映数据块频谱的平坦性,p e 越大,则该数据块包含能量较强的高频分 量,因而在时域内必有瞬时的剧烈变化。心理声学模型i i 规定当p e s w i t c h p e 时,数据块为短类型,反之为长类型。s w i t hp e 设为常数1 8 0 0 。 ( 5 ) 计算长块掩蔽阈值 上述计算的阈值都是以频段为计算单位,但是m p 3 量化编码都是以比例因子 带( s c a l ef a c t o rb a n d s ,s f b ) 为计算单位,因此最后需要将每个频段的阂值转化为比 例因子带所对应的阈值: 第二章m p 3 编码器算法原理 e n ( s b ) = w l x e b ( b ) + p 6 ( 6 ) + w 2 x e b ( b o ) , ( 2 - 1 2 ) 培屯+ l b = b o + i t h r n ( s b ) = w l x t h r ( b 。) + t h r ( b ) + w 2 x t h r ( b o ) ( 2 - 1 3 ) 扣k + l 其中,w l 、w 2 、既、6 0 值均由模型i i 标准给出,吮、b o 分别为比例因子子带 样本的起始和终止值。 ( 6 ) 计算短块掩蔽阈值 若当前数据块类型为短块时,模型i i 会重新计算每个频段的声音能量阈值, 计算方法与长块相同,但不同的是把整个数据块分成3 个短块分别进行计算,短块 中每个频段的s m r 值不是计算得到,而是由模型i i 标准给出。当计算完频段的能 量阈值后,再将其转化为比例因子子带的阈值,转化方法与长块一样。 2 4 分析滤波器组 如前所述,m p 3 是一种子带编码? 首先要将输入的p c m 样本划分成3 2 个子带 信号再进行处理。m p 3 使用了一个3 2 通道的伪标准正交镜像滤波器组( p q m f ) 来 完成这一功能的【2 2 】,我们把它叫做分析滤波器组( a n a l y s i sf i l t e r b a n k ) ,与m p 3 解 码时将3 2 路子带信号合成所用到的综合滤波器组( s y n t h e s i sf i l t e r b a n k ) 相对应吲。 图2 4 是子带分解过程示意图: x 图2 4 子带分解过程示意图 当p c m 信号输入滤波器组后,被分解成3 2 路等频宽的子带信号。每输入3 2 个 p c m 信号做一次滤波器组分析,输出3 2 路子带信号( 此时仍然是时域上的信号) 。该 滤波器组实际上是3 2 个5 1 2 阶的f i r 带通滤波器,通带频率由低到高2 3 1 。其数学表 达式为: 1 4 m p 3 编码器算法x 8 6 和a r m 平台的移植 e ( ”) :办( 岫c 。s ( 丝掣) ,瑚3 1 舻o 5 1 1( 2 - o q 式中,h ( n ) 就是f i r 低通滤波器。将输入的p c m 信号通过滤波器组得到p i n , 然后再作3 2 倍抽取,则可得到3 2 个频带的子带信号【2 3 1 。 2 5 修正的离散余弦变换m d c t 由于音频信号是逐段进行处理的,因此如何对信号进行截取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论