




已阅读5页,还剩56页未读, 继续免费阅读
(通信与信息系统专业论文)aaclc算法x86及arm平台移植和优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 m p e g 一4a a c ( a d v a n c e da u d i oc o d i n g ) 是目前最先进的感知音频编码技术, 在数字音频的存储和传输中有广泛的应用,并且已经成为m p e g 一4 标准中高质量音 频编码的核心。与以往的m p e g 音频编码标准相比,该算法具有压缩比更高,压缩 质量更好,配置更为灵活等特点;但与此同时,a a c 的算法复杂度较高,较难满 足实时编码的要求。因此研究其算法、并根据实际需求进行算法改进和优化,具 有重要的理论意义和应用价值。 a a c 编码器的各种框架中,a a c l c ( a a cl o wc o m p l e x i t y ) 框架的复杂度 较低,因此适合在处理速度不高的硬件平台上进行开发。本文首先阐述了感知音 频压缩的一般原理,然后介绍了a a c l c 编码器的编码模块和算法原理,接着论文 给出了a a c 编码器的编码模块的优化方法。x 8 6 平台及a r m 平台的移植和优化方 法也在论文中进行了详细的描述。在a a c l c 算法中,与解码器相比,编码器的算 法复杂度更高,编码器由心理声学模型、滤波器组、频域预测、瞬时噪声整形、 立体声处理,量化和编码等模块组成并且这些模块都有较高的复杂度。因此本论 文重点关注a a c l c 算法编码模块的优化,并且在对它们的优化方面取得了很大的 成果。 最后,论文给出了编码器的性能测试结果。结果表明,在保证编码质量的前 提下,针对x 8 6 平台和a r m 平台的优化,编码器的复杂度分别下降了3 0 和7 5 , 优化的算法已经可以应用于实时编码。 关键词:信源编码感知音频编码m p e g 4a a c l c算法移植与优化 a b s t r a c t a st h em o s ta d v a n c e dp e r c e p t u a la u d i oc o d i n gt e c h n o l o g y ,m p e g - 4a a ch a s b e e na p p l i e dw i d e l yi nt h et r a n s m i s s i o na n ds t o r a g eo fd i g i t a la u d i os i g n a la n di ti st h e c o r eo fh i g hq u a l i t ya u d i oc o d i n gi nm p e g 一4 c o m p a r e dw i t ho t h e rm p e ga u d i o c o d i n gs t a n d a r d s ,i th a sh i g h e rc o m p r e s s i o nr a t i o ,b e t t e rc o m p r e s s i o nq u a l i t ya n dm o r e f l e x i b l es o u n dt r a c kc o n f i g u r a t i o n h o w e v e r ,t h ep e r f o r m a n c ei m p r o v e m e n ti sa tt h e e x p e n s eo fc o m p u t a t i o nc o m p l e x i t ya n db a dr e a lt i m ef e a t u r e s oi t i sn e c e s s a r ya n d m e a n i n g f u l t o o p t i m i z et h ea l g o r i t h m s o fa a cb o t hi na c a d e m i ca n di n d u s t r i a l p u r p o s e s a m o n ga l lt h ep r o f i l e so fa a cc o d i n ga l g o r i t h m s ,t h ea a c l c ( a a cl o w c o m p l e x i t y ) h a sl o w e rc a l c u l a t i o nc o m p l e x i t ya n dt h e r e f o r ei ti ss u i t a b l ef o ra p p l i c a t i o n i nw h i c ht h eh a r d w a r eo n l yh a sl o w e rp r o c e s s i n gp o w e r t h et h e o r yo fp e r c e p t u a l c o d i n gf o rg e n e r a la u d i oi sp r e s e n t e di nt h et h e s i sf i r s t ,t h e ns t r u c t u r ea n dp r i n c i p l eo f a a c l ce n c o d e ri si n t r o d u c e d ,n e x tt h em e t h o d sf o ro p t i m i z i n gt h ef u n c t i o n a lb l o c k s i na a c - l ce n c o d e ra l g o r i t h mi sd e s c r i b e d ,t h ew a y st op o r t i n ga n do p t i m i z a t i o no ft h e a l g o r i t h mt ox 8 6a n da r mp l a t f o r m sa r ea l s od e t a i l e di nt h et h e s i s i nt h ea a c l c a u d i oc o d i n ga l g o r i t h m ,t h ec o m p l e x i t yo fe n c o d e ri sm u c hh i g h e rt h a nt h a to ft h e d e c o d e r ;a n di nt h ee n c o d e r ,t h ep s y c h o a c o u s t i cm o d e l ,f i l t e r b a n k ,f r e q u e n c yp r e d i c t i o n , m i d s i d es t e r e o ,t e m p o r a ln o i s es h a p i n ga n dq u a n t i z a t i o nm o d u l e sp l a yai m p o r t a n tr o l e i nt h ea l g o r i t h ma n dt a k et h em a i np a r t so fc a l c u l a t i o nl o a do ft h ee n c o d e r a sar e s u l t , t h et h e s i sp a y sg r e a ta t t e n t i o n st ot h ee n c o d e ra n dm a d eb i gp r o g r e s s e si no p t i m i z a t i o n f o rt h e m p e r f o r m a n c ee v a l u a t i o nh a ss h o w nt h a t ,w h i l ek e e p i n gt h ea u d i oe n c o d i n gq u a l i t y u n c h a n g e d ,t h ec a l c u l a t i o nc o m p l e x i t yo ft h ee n c o d e rf o rx 8 6a n da r m h a v eb e e n r e d u c e dm o r et h a n3 0 a n d7 5 r e s p e c t i v e l y ,t h eo p t i m i z e da l g o r i t h mi sa b l et ob e u s e di nr e a la p p l i c a t i o n s k e y w o r d :s o u r c ec o d i n gp e r c e p t u a la u d i oc o d i n g m p e g - 4a a c - l c a l g o r i t h mp o r t i n ga n do p t i m i z a t i o n 第一章绪论 第一章绪论 1 1 研究背景和意义 随着音频压缩编码技术的发展,压缩率越来越高音质越来越好,但是压缩算 法的复杂度却随之不断增大。m p e g - 4a a c ( a d v a n c e da u d i oc o d i n g ) 是m p e g 标准的音频编码规范,是目前最先进的感知音频编码技术,它能够在相同的单声 道6 4 k b p s 的编码比特率下,取得比m p 3 编码算法更好的音质。目前,a a c 已经 以其压缩比高,重建音质好,声道配置灵活,不同层次的应用具有不同的算法复 杂度等特点f l j ,在数字影音系统、数字电视直播、数字音频广播、电视电话会议系 统、无线电话会议系统、无线通信和网络多媒体业务等领域得到广泛应用。a a c 已成为m p e g - 4 规范的核心,同时它还是因特网、无线网以及数字广播网领域中 的新一代音频数字解码器的选择1 2 j 。 但是a a c 标准算法具有复杂度高、计算量大、编码延迟时间长和不易于硬件 实现等缺点,未经优化的a a c 标准算法无法很好的满足实时编码的要求,影响了 其迸一步的发展应用。因此为了实现便携式设备的a a c 实时编码,对a a c 编码 算法进行优化从而降低运算复杂度显得尤为必要。同时a a c 的系统开发以模块为 基础,每个模块或工具都可以单独进行优化,使得对a a c 编码算法的改进与优化 变得更加容易。综上所述,对a a c 的改进既有必要性又有可行性。 由于a a c 是m p e g 标准的音频编码规范的一部分,本文首先对m p e g 音频 标准作简单介绍。 1 2m p e g 音频标准简介 m p e g ( m o v i n g p i c t u r ee x p e r tg r o u p ) ,即运动图像专家组的简称,是国际标 准化组织于1 9 8 8 年建立的,主要致力于运动图像及其相关音频编解码标准的制定。 ( 1 ) m p e g 一1 音频编码标准 m p e g 1 ( i s o i e c1 11 7 2 3 ) 是m p e g 组织于1 9 9 2 年制定的第一个国际标准 【3 】,它能对最多两个声道编码,支持每声道约为3 2 k b p s 2 2 4 k b p s 的编码比特率,支 持的音频采样率为3 2l d - l z ,4 4 1k h z 和4 8k h z 。m p e g 1 有可选的三层编码方式, 每个层次的编码复杂度和压缩率有所不同。第1 层复杂度最小,第1 i i 层复杂度最 高,编码质量最高。m p e g 1 第1 i i 层,也就是我们熟知的m p 3 ,己成为网络音乐 和便携电子设备的首要标准,取得了很大的商业成功。 2 l a c - l c 算法x 8 6 及a r m 平台移植和优化 ( 2 ) m p e g 2 音频标准 m p e g 组织于1 9 9 4 年制定了m p e g 2 ( i s o i e c1 3 8 1 8 ) 标准【4 j ,主要应用于 数字电视领域。它包括了对m p e g 1 音频编码标准的两方面的补充:一方面,为 低比特率,增加了对1 6 k h z 、2 2 5 k h z 、2 4 k h z 三种采样率的支持。另一方面,为 环绕声道应用发展了逆向兼容的多声道扩展。分别为左右声道,中央声道,左右 环绕声道和一个附加的低频增强声道。m p e g 2 技术是实现d v d 的标准技术,除 了作为d v d 的指定标准外,m p e g 2 还可用于为广播、有线电视网、电缆网络以 及卫星直播提供广播级的数字视频。 ( 3 ) m p e g 2a a c m p e g 2a a c 标准【5 】完成于1 9 9 7 年,它在5 1 声道码率3 8 4 k b p s 的条件下, 可以达到i t u r 要求的广播音质。m p e g 2a a c 不向后兼容m p e g 1 ,它支持 8 k h z 9 6 k h z 采样率的编码,最多可支持4 8 个声道。m p e g 2a a c 能够在相同的 单声道6 4 k b p s 码率下,取得比m p 3 编码算法更好的音质,目前已被广泛应用于数 字电视、数字电视广播d v b 、d a b 、d v d 及下一代电视节目的非线性编辑系统及 数字存储中。 ( 4 ) m p e g 4a a c 1 9 9 9 年底,m p e g 组织决定采用a a c 作为m p e g - 4 的音频标准( i s o i e c 1 4 4 9 6 3 ) 。m p e g - 4a a c 以m p e g 2a a c 为核心,在此基础上增加了感知噪声 替代和长时预测模块,并向下兼容m p e g 2a a c 。m p e g 4 标准的音频部分算法 包含了从低至2 k b p s 的低码率语音编码到每声道6 4 k b p s 以上的高质量音频编码, 在范围上得到了极大的提升,被认为是下一代多媒体的主要标准。 1 3 研究内容和主要成果 m p e g 4a a c 是目前最先进的一种感知音频编码技术标准,具有信号压缩比 高、重建音质好、解码过程高度模块化和声道配置灵活等优点,但是同时a a c 标 准也存在算法复杂度高、编码延迟时间长且不利于硬件实现等缺点,无法很好的 满足实时编码的要求。目前有关a a c 音频实时性能优化的研究有很多,归纳起来 可以分成以下三个方面【b j : ( 1 ) 算法优化,即对标准建议的相关算法进行优化和改进以及提出一些全新的 算法来提高编码效率。 ( 2 ) 结构改进,即对标准编码器的结构和编码流程进行简化或改进,从根本上 减少或者优化编码的中间环节,提高编码的效率。 ( 3 ) 高效的硬件实现,即根据各种专业音频编码芯片的特点,对标准编码器的 结构,流程和算法进行有针对性的优化实现,利用专业音频编码芯片高效的编码 第一章绪论 指令集,实现基于硬件平台的实时音频编码。 m p e g - 4a a c 在音频编码质量和存储器处理能力之间进行了折衷,定义了三 种主要的具有不同复杂度的音频对象类型,三种音频对象类型为: ( 1 ) 主要类型( a a cm a i n ) :m a i n 类型具有最高的复杂度,主要用于存储和 计算能力都很充足的情况。m a i n 类型可以在任何给定的码率条件下提供最佳的音 频质量,m a i n 类型利用了除增益控制以外的所有编码工具来提高压缩效率。 ( 2 ) 低复杂度类型( a a cl o wc o m p l e x i t y ,a a c l c ) :a a c l c 类型主要用 于存储空间和计算能力有限的情况。这种类型没有使用预测和增益控制这两种工 具,瞬时噪声整形的阶数也比较低。 一 ( 3 ) 可放缩采样率类型( a a cs c a l a b l es a m p l i n gr a t e ,a a c s s r ) :这是一种 很独特的类型,其特点在于当带宽降低的时候,s s r 的复杂度也会随之降低,特别 适合网络带宽变化的场合。 相对于其他类型而言,a a c l c 类型的运算量较小,算法复杂度较低并具有较 高的编码质量,已被广泛的应用于实时编码研究中,因此本文将以a a c l c 类型为 研究对象对a a c 编码的相关算法进行研究和优化。 本文主要从算法优化、结构改进以及针对具体平台的优化三个方面入手对 a a c l c 编码器进行优化。 ( 1 ) 算法优化方面,选择了一些优化算法,主要是心理声学模型中窗口切换 算法优化和滤波器组的快速实现算法优化。 ( 2 ) 结构优化方面,对a a c l c 编码器的可选部分进行了选择,减少了中间 的编码模块,考虑到感知噪声代替模块在重建信号时只是根据信号的能量随机生 成,会造成感知上的误差,所以去掉了这个模块。同时联合立体声编码是针对多 声道开发的一种复杂的空间编码技术,其目的是为了去掉空间的冗余信息。由于 目前大多数的应用最多只需要用到双声道,不需要进行复杂的声道耦合处理,故 选择了m s ( m i d d l e s i d e ) 立体声处理,放弃了i s ( i n t e n s i t ys t e r e o ) 立体声编码 模块。 ( 3 ) 针对具体的平台的优化方面,针对不同的平台进行代码优化和编写高效 的内嵌汇编来进行进一步的优化。并且在v s 2 0 0 5 和a r m a d s 下进行了仿真,最 后通过对编码效率和编码质量进行测试。在编码质量没有下降的前提下,a a c l c 基于x 8 6 的优化,编码时间下降了3 0 ;基于a r m 的优化编码效率提高了7 5 以匕。 4 a a c - l c 算法x 8 6 及a r m 平台移植和优化 1 4 论文结构安排 本论文共分为五章,具体结构安排如下: 第一章是绪论,简要介绍了论文研究的背景和意义、m p e g 音频编码标准的 发展及其论文的研究内容和结构安排。 第二章首先简单介绍感知音频编码的一些基本原理,然后对a a c l c 编码器 的各个功能模块及编码流程做了介绍和分析,并且结合编码过程,具体介绍了这 些模块在标准里的实现方法。 第三章介绍了a a c l c 编码器的算法优化,并且根据x 8 6 平台和a r m 平台 的特点,针对不同的平台进行代码优化和编写高效的内嵌汇编来进行进一步的优 化。 第四章对优化后的编码器进行了结果测试和分析。 最后,第五章对本论文进行了总结,并提出了下一步工作应注意的问题。 第二章感知音频压缩原理与a a c l c 算法 第二章感知音频压缩原理与a a c - l c 算法 2 1 感知音频压缩概述 i 外耳 : 中耳 图1 1 人耳的生理构造 6 a a c - l c 算法x 8 6 及a r m 平台移植和优化 ( 2 ) 人耳听觉特性 人类对声音的感知存在一种特性,即人类只会对在一定频率范围内具有定 振幅大小的音频信号产生反应,并且频率和振幅之间还存在一定的关联性。 听阈是当声音d , n 人的耳朵刚刚可以听见时的强度。测试表明听阈值,是随频 率变化的。对不同频率的声音测试听阈值,可以得出二条听阈一频率曲线如图1 2 所示。低于这根曲线的声音人耳是听不到的,因此听阈又称绝对听觉闽值。从图 1 2 中可以看出,人对3 k h z 到5 k h z 的声音最敏感,这和人耳的生理构造是相符的。 响1 3 0 l o1 2 0 i d b l l 0 1 0 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 o 1 0 f + - 。 : , + 。一 1 2 461 02 0 频率| k h z ) 图1 - 2 绝对听觉闽值曲线( 引自文献【8 】) 由人耳的听觉特性及绝对听觉阈值曲线我们可以知道,对于那些在可听频率范 围之外的音频信号或者虽在可听频率范围之内但分贝值小于对应的绝对听觉阈值 的音频信号人耳是无法感知的,在进行信号处理的时候可以将其忽略而不会对音 质产生任何影响,这种对于音频信号感知冗余的确定为感知音频编码技术的实现 提供了重要的理论依据。 ( 3 ) 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。 前者称为掩蔽声音( m a s k i n gt o n e ) ,后者称为被掩蔽声( m a s k e dt o n e ) 。掩蔽可 分为频域掩蔽和时域掩蔽。 频率掩蔽:一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域 掩蔽,也称为同时掩耐9 1 。例如一个声强为6 0d b 、频率为1 0 0 0h z 的纯音,另外 还有一个7 0 0h z 的纯音,前者比后者高4 5 d b ,在这种情况下我们的耳朵就只能听 第二章感知音频压缩原理与a a c l c 算法 7 到那个1 0 0 0h z 的强音。图1 3 给出了一个具体的掩蔽曲线: 频率,k h z 图1 3 频率掩蔽曲线 频域掩蔽现象的产生是因为当一个强音产生时会将其附近一定频域范围内的 频率绝对听觉阈值拉高,产生新的频率掩蔽门限,使其附近的绝对听觉阈值曲线 形状发生改变。在这种情况下即使弱音的分贝值超过了其自身的频率绝对听觉阈 值,但如果没有超过新的听觉门限将同样不能被感知。 时域掩蔽:除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音 之间也有掩蔽现象,这种掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,所以 又称为异时掩蔽i i 。时域掩蔽又分为超前掩蔽( p r e m a s k i n g ) 和滞后掩蔽 ( p o s t m a s k i n g ) 。被掩蔽声音作用于掩蔽声之前,即一个声音影响了时间上先于 它的声音的听觉能力,这称为超前掩蔽。当掩蔽声作用在前,被掩蔽声作用在后, 即当一个声音已经结束,它对另一个声音在听觉上还产生影响,这称为滞后掩蔽。 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽很短,只有大约5 2 0 m s ,而滞后掩蔽可以持续5 0 - - 一2 0 0 m s 。在实际中, 滞后掩蔽更为重要。当被掩蔽声在时问上越接近于掩蔽声,阈值就越高。掩蔽声 和被掩蔽声时间上相距很近时,滞后掩蔽作用大于超前掩蔽作用。异时掩蔽随着 时间的推移很快会衰减,是一种弱掩蔽效应。如图1 4 所示。超前掩蔽和滞后掩蔽 这些两种效应合成的结果,就形成了实际的可闻阂。 时域掩蔽效应体现了掩蔽效应在时域上的特性,使我们能够更好的理解感知 音频编码过程中预回声现象产生的原因,并为如何解决这些问题提供了思路。 a a c - l c 算法x 8 6 及a r m 平台移植和优化 口 、 j 厶 时间m s 图1 4 时域掩蔽曲线 ( 4 ) 临界频带 人耳对于不同频率的声音信号的敏感度是不同的,一般大约可分成二十多个 不同宽度的频带,称之为临界频带。一个纯音可以被以它为中心频率,而且具有 一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这 个纯音才处于刚好能被听到的临界状态,即称这一带宽为临界带宽,单位为b a r k 。 通常情况下,可以把人类的可听频率范围划分为2 5 个临界频带。在5 0 0 h z 以下临 界频带带宽趋于恒定约为1 0 0 h z ,在5 0 0 h z 以上临界带宽约为其中心频率的2 0 左右。在同一个临界频带内的音频信号具有相同的心理声学特性i l 。 a a c 编码算法充分利用了人耳的听觉系统对声音的感知特性来编码【l 引,它只 处理l o h z 2 0 0 0 0 h z 范围内的声音数据。由于掩蔽效应,对于有多个频率的声音出 现的情况下,某个具有较高声强的频率的信号会掩蔽其附近的声强较低的信号, 被掩蔽信号不用编码,这样就大大提高了压缩率。 2 2a a c l c 算法模块及算法原理 a a c 属于感知音频编码,与所有感知音频编码类似,其原理是利用人耳听觉 的掩蔽效应,对变换域中的谱线进行编码,去除将被掩蔽的信息,并控制编码时 的量化噪声,使其不被人耳感知。a a c 编码过程由一些必要模块和一些可选模块 组成,在三种编码框架罩,通过选用不同模块来在编码质量和编码算法复杂度之 间进行折衷,我们选择的是其中的a a c l c 编码框架。a a c l c 编码器的基本结 构如图2 1 所示( 图中虚线框内为可选编码模块) : 第二章感知音频压缩原理与a a c l c 算法9 旦 里 化 编 码 模 块 2 2 1 心理声学模型 图2 1m p e g 4a a c l c 编码器框图 心理声学模型是a a c 的核心部分之一。在a a c 编码器中心理声学模型的输入 是1 0 2 4 点的p c m 信号,其处理块的长度为2 0 4 8 点和2 5 6 点,时域上与上一块有5 0 的重叠。心理声学模型主要利用心理声学原理对信号频谱进行分析计算出信掩比、 掩蔽阂值、感知熵等一系列心理声学参数供其它模块使用,是编码器的核心模块。 心理声学模型应用到的心理声学原理主要有:临界子带频率分析、绝对掩蔽阂值、 频域掩蔽、时域掩蔽和感知熵【1 3 】等。心理声学模型把整个信号频带按人耳的听觉 感知特性划分成临界频带,然后计算出各临界子带的信掩比、掩蔽阈值及感知熵 1 0 a a c - l c 算法x 8 6 及a r m 平台移植和优化 等心理声学参数,感知熵用于实现瞬变信号检测和窗口切换的判断,信掩比用于 对每个比例因子带进行比特分配,掩蔽阈值用于对量化噪声进行控制。 在心理声学模型计算的一开始需要对输入信号进行时频分析,得到信号的频 域信息。因为在不可预测性的计算中,需要用到谱线的幅值和相位,对频域信息 的分辨率要求较高,而m d c t 无法提供这么精确地信息,所以在a a c 心理声学模 型中使用的频域值不是滤波器组的输出,而是通过f f t 变换得到的。输入的音频信 号首先需要分帧,和滤波器组一样,为了提高相邻帧之间的连续性,相邻帧有5 0 的重叠。分帧后,需要计算一个力9 2 0 4 8 点汉宁窗的f f t 和八个力n 2 5 6 点汉宁窗的 f f t 。因为以后计算中用到的是幅值和相位,所以把频域输出用极坐标的形式表示, 幅度r ( w ) 相位f ( w ) 满足: r ( w ) e ”= x ( 叻 ) 谱线不可预测性的计算,首先需要用前两帧数据的谱线幅度和相位对当前帧 谱线的幅度和相位进行预测,预测公式如下: k ( w ) = 2 0 x ,:一i ( w ) 一一2 ( w ) ( 2 - 2 ) z 删( w ) = 2 o x z l ( w ) 一z 一2 ( w ) ( 2 - 3 ) 其中f p r e d ( w ) 是当前帧第w 根谱线幅度的预测值,无删( w ) 是当前帧第w 根谱线 相位的预测值,t l 代表前一帧,一2 代表再前一帧。 得到预测值后,要比较真实值和预测值之间的欧基里德距离,计算公式如下: d i s t ( x ,x 删) = l x x ,耐i = ( r c o s f 一钿c o s 耐) 2 + ( ,s i n 厂一钿s i n 粕) 2 】0 5 p 刖c o s w ) 2 ( 2 4 ) 再按照最大可能距离进行归一化,这个归一化的值就是不可预测性c ( w ) 。如 公式( 2 5 ) 所示: c ( w ) 5 而d i s t ( 币x , x 羽p r e d ) 5 , 按照公式( 2 5 ) 分别对长短块f f t 的计算结果计算谱线的不可预测性。 长块只需要计算前6 根谱线,剩下的谱线中选取8 个短块的计算结果中最小的 那个,高频部分的不可预测性全部设为o 4 ,如公式( 2 6 ) 所示: fq ( w ) 0 w 6 c ( w ) = c ,( w 8 ) 6 w 口( 2 - 6 ) l o 4口w a l 0 2 4 第二章感知音频压缩原理与a a c l c 算法 其中,a 是一个标志高频部分起始谱线的常数。 得到每根谱线对应的不可预测性之后,就可以通过对每个阂值计算分区内的 所有谱线的不可预测性加权求和得到该分区的不可预测度c ( b ) ,其中b 是分区的序 号。加权的权重就是每根谱线的能量,因此可以得到c ( 6 ) 的计算公式如( 2 7 ) 所 示其中是分区6 内的第一根谱线,劝是分区6 的最后一根谱线。 ”钿 c ( b ) - c ( w ) r 2 ( w ) ( 2 - 7 ) r = o k 除了分区的不可预测度之外,还需要计算分区的能量,它由分区内的所有谱 线能量相加得到如公式( 2 8 ) 所示: ”l 曲 p ( 6 ) = ,2 ( w ) ( 2 8 ) w 2 w l o w 由于信号可以跨越分区掩蔽,为了更准确的计算掩蔽阈值,可以使用扩展函鼍 数s p r d n g f ( ) 分别和分区的不可预测度c ( 6 ) 和能量e ( b ) 进行卷积,得到扩展后的分 区不可预测度c t ( b ) 和能量e c b ( b ) 。计算公式如下: 吒。 c t ( b ) = c ( b b ) xs p r d n g f ( b v a l ( b b ) ,b v a i ( b ) ) ( 2 9 ) b b = l e c b ( b ) = e ( b b ) s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) ( 2 10 ) b b = l 其中,6 6 是分区的序号,瓦。是最大分区序号,b v a l ( b b ) 是第的分区中心的 巴克值。扩展函数表征的是第6 6 分区对第b 分区的扩散影响。a a c 心理声学模型 中采用的扩展函数可由如下所示的一系列计算方法得到。 舻1 5 ( j - 三巍 2 - 1 。i , x = 。i) - f ) 其他 、。 y = 1 5 8 1 1 3 8 9 + 7 5 ( x + 0 4 7 4 ) 一1 7 5 ( 1 o + ( x + o 4 7 4 ) 2 ) o 5 ( 2 1 2 ) z = 8 xm i n ( ( x - o 5 ) 2 - 2 ( x - 0 5 ) 1 ,o ) ( 2 1 3 ) f o y 一1 0 0 s p r d n g f ( i ,j ) = 剑 ( 2 1 4 ) l1 0 1 0 其他 l 一 式中f 表示扩展信号的巴克值,表示被扩展频段的巴克值。由上面的公式可 1 2 a a c l c 算法x 8 6 及a r m 平台移植和优化 以看出,扩展函数只和一;的值有关而和具体的,无关,因此以j - i 为自变量 可以画出扩展函数的曲线。关于这种扩展函数的一些情况可以在文献【1 4 】中找到。 因为在不可预测度的计算过程中曾经用信号能量进行加权,因此扩展后的分 区不可预测度需要根据扩展后的分区能量作归一化处理如式( 2 1 5 ) 所示: 曲:旦堕 ( 2 1 5 ) e c b ( b ) 同时,由于能量与扩展函数卷积的过程中破坏了原来的归一化性,扩展后的 分区能量需要重新进行归一化。计算公式如( 2 1 6 ) 所示: p ,? ( 6 ) :f 型l 一 ( 2 - 1 6 ) 艺s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) 弦度t b ( b ) 可以通过公式( 2 1 7 ) 由c b ( b ) 计算得到。它的取值范围是o n l ,值 越大越像谐音越小越像噪声。 t b ( b ) = - 0 2 9 9 - 0 4 3 xl o g 。c b ( b ) ( 2 - 1 7 ) 得到弦度之后,再按照公式( 2 1 8 ) 进行内插就可以得到每个分区的信噪比 ( s i g n a l t o n o i s er a t i o 简称s n r ) 。 s n r ( b ) = t b ( b ) x t m n ( b ) + ( 1 一胁( 6 ) ) n m t ( b ) ( 2 - 1 8 ) 其中,t m n ( b ) 是每个分区的弦音掩蔽噪声比( t o n em a s k i n gn o i s e ) 。a a c 标准中设为1 8 d b ;n m t ( b ) 是每个分区的噪声掩蔽弦音比( n o i s em a s k i n gt o n e ) , 设为6 d b 。 有了各个分区的归一化能量e n ( b ) 和信噪比s n r ( b ) 之后就可以按照公式 ( 2 1 9 ) 计算每个分区的掩蔽阈值。 s n r ( b ) r i b ( b ) = p 刀( 6 ) 1 0 1 0 ( 2 1 9 ) a a c 的心理声学模型通过比较前后帧的掩蔽阈值来判断是否有突发的高能信 号出现。这是因为当信号的能量突然变大时对应的掩蔽阈值也会相应变大,因此 当掩蔽阈值突然变大的时候,将它设为相对较小的值,这样由于后续编码过程中 引入的噪声被限制在掩蔽阈值之下,从而达到抑制噪声减弱预回声现象的作用。 a a c 标准中的做法是比较前面计算出的分区阈值和前帧相同分区的阈值和静音 阈值,得到最后的分区掩蔽阈值如公式( 2 2 0 ) 所示: 第二章感知音频压缩原理与a a c l c 算法 n b ( b ) = m a x ( q s t h r ( b ) ,m i n ( n b ( b ) ,n b l ( b ) xr p e l e v ) ) ( 2 - 2 0 ) 其中,q s t h r ( b ) 静音阈值,n b 一,( 6 ) 是前一帧的6 分区的掩蔽阈值。r p e l e v 在 长块中取值2 ,在短块中取值l 。 心理声学模型还要计算音频信号的感知熵( p e r c e p t u a le n t r o p y ,简称p e ) ,计 算公式如( 2 。2 1 ) 所示: 擘= 一善( ) _ ) + 1 ) xl o g j 0 丽n b ( b ) ( 2 - 2 1 ) 感知熵是信号感知信息量的近似估计,根据信息论,当该帧有瞬时突变信号 的时候,相当于包含较多的信息量,计算得到的雎会比较大。因此,当雎超过 某个预先设定的值s w i t c h p e 时,就需要把长块切换成短块,来抑制预回声现象。 不同的实现有不同的s w i t c h p e 值。需要注意的是,长短块之间的切换有过渡带, 不能直接切换。 岁 p e 值除了被用来判断块类型以外,还可以用来估计编码所需比特数,p e 值越 大所需的比特数越多,具体的估算公式如( 2 2 2 ) 所示: 翟 b i t a l l o c a t i o n = p e w l xp e + p e w 2 x p e ( 2 - 2 2 ) 其中0 b i t a l l o c a t i o n 2 5 5a n d0 si f v a l 在汇编语言里,编译器生成下面的代码: m o v d a qx m m o ,x m m w o r dp t r _ 2 i 10 f l o a t p a c k e t $ 1 ; x o r e a x ,e a x $ b15 2 :m o v d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年初高中艺术课程考试试题及答案
- 2025年信息系统管理专业考试题及答案
- 2025年影视制作管理师考试试卷及答案讲解
- 2025年消防员上岗考试试题及答案
- 2025年传媒与新闻专业综合考试试题及答案
- 游戏开发工程师团队协作合同
- 环保物流车队承包合作协议
- 影视行业群众演员选拔与合同执行标准合同
- 旅游意外险附加疾病预防与治疗协议
- 环保项目废气数据补充与环保设施改造协议
- FZ/T 73001-2016袜子
- 科技创业孵化园项目书专题培训课件
- 毕业设计(论文)-箱体零件加工工艺规程及专用夹具设计
- 开放水域潜水员理论知识考试试题与答案
- 质量、环境、职业健康安全、有害物质管理手册
- 机械设计基础课程设计题目范文
- 项目经理月度报告
- 报价单报价表
- hsk3教程hsk3练习参考答案
- 基于STM32 智能药箱的设计与实现
- 大象版小学《科学》实验目录
评论
0/150
提交评论