(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf_第1页
(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf_第2页
(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf_第3页
(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf_第4页
(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(通信与信息系统专业论文)高保真低速率音频编码关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,高质量低码率音频编码关键技术虽然得到了广泛发展,但是数字音 频业务的强劲增长迫切需要更高的音频质量和更低的编码比特率。相比之下,音 频压缩编码技术稍显滞后,所以继续这一领域的研究具有重大的现实意义。 本文提出一种高保真、低速率音频编码关键技术基于最优频带选择的高 频重建技术。它利用高频成分与低频成分的相关性,并结合音调理论和谐波理论, 只需传递少量参数,就可在解码端使用低频成分重构特性与原始信号十分相似的 高频成分。在技术上,它是一种自适应高频重建技术,增强了对音频特性的分析 和检测,对各种不同音频特性的文件均可采用专门的复制策略进行处理,共提出 三种适应不同音频特性的频带复制策略和一种低码率时对频带复制策略的扩展策 略,并采用最大相关准则判定方法,为高频成分选择最优匹配的低频成分来进行 复制。在实现步骤上,它只需频带复制和包络调整,就可以完成对高频信号的高 质量重建。 测试与分析结果表明,基于最优频带选择的高频重建技术与现有高频重建技 术相比,能够更准确、更完整地重建原始高频成分的谐波;重建后的音频文件音 质饱满,音调悦耳;非常适合高保真、低速率音频编码的需求。虽然在技术发展 的现阶段还存在一些不足,但是可以通过后续研究来改进。 关键词:音频编码高频重建高保真低速率多媒体通信 a b s t r a c t r e c e n ty e a r sv a r i o u sk e yt e c h n o l o g i e so f h i 曲- q u a l i t ya n dl o wb i t r a t ea u d i oc o d i n g h a v e b e e nd e v e l o p e d ,b u tt h es t r o n gg r o w t ho f d i g i t a la u d i ob u s i n e s si si ng r e a tn e e do f h i 曲a u d i oq u a l i t ya n dl o wb i l r a t e b yi nc o n t r a s t , a u d i oc o m p r e s s i o na n dc o d i n g t e c h n o l o g yi sal i t t l ef a rb e h i n d s oi ti so fg r e a tp r a c t i c a ls i g n i f i c a n c et od o 自咖e r e s e a r c ho nt h e s ea r e a s an o v e lk e yt e c h n o l o g yo fh i g hf i d e l i t ya n dl o wb i t r a t ea u d i oc o d i n g ,t h e t e c h n o l o g yo fh i g h - f r e q u e n c yb a n dr e c o n s t r u c t i o nb a s e do nt h eo p t i m a lc h o i c eo f r e p l i c a t i o nb a n d s ,i sp r o p o s e di nt h i st h e s i s c o m b i n i n gw i t ht h et o n a l i t ya n dh a r m o n i c r e l a t i o n s h i p s a n db yu s i n gt h ec o r r e l a t i o no fh i 曲一f r e q u e n c ya n dl o w - f r e q u e n c y c o m p o n e n t s ,t h ep r o p o s e d s c h e m ei sa b l et or e c o n s t r u c tt h e h i g h f r e q u e n c y c o m p o n e n t sv e r ys i m i l a r t ot h e o r i g i n a ls i g n a l so n l y w i t ht h e l o w f r e q u e n c y c o m p o n e n t sa n daf e wa d d i t i o n a lp a r a m e t e r sr e f l e c t i n g t h ef e a t h e r so ft h e h i 曲- f r e q u e n c ys i g n a l s t e c h n i c a l l y ,i ti s a na d a p t i v eh i g h - f r e q u e n c yr e c o n s t r u c t i o n t e c h n i q u e s od i f f e r e n ta u d i os i g n a l s 、i t hv a r i o u sc h a r a c t e r i s t i c sc a nb ep r o c e s s e db y s p e c i f i cr e p l i c a t i o nm e t h o d s t h e r e f o r et h r e ed i f f e r e n tr e p l i c a t i o ns t r a t e g i e sa d a p t i n gt o v a r i o u sa u d i oc h a r a c t e r i s t i c sa n ds e v e r a la l g o r i t h m sf o rl o wb i t r a t ea u d i oc o d i n ga l e i n t r o d u c e d , i nw h i c ht h eh i g h f r e q u e n c yc o m p o n e n t sa r er e p l i c a t e db ys e l e c t i n gt h e o p t i m a lm a t c h i n gl o w - f r e q u e n c yc o m p o n e n t sa c c o r d i n gt ot h em o s tr e l e v a n tc r i t e r i a i t r e c o n s t r u c t sh i g hf r e q u e n c ys i g n a l s 谢t hh i 班q u a l i t yj u s tb yt w os t e p s ,b a n d s r e p l i c a t i o na n de n v e l o p ea d j u s t m e n t , c o m p a r i n gt ot h eh i g h f r e q u e n c yr e c o n s t r u c t i o nt e c h n o l o g ya l r e a d ya v a i l a b l e ,t h e r e s u l t so ft e s t i n ga n da n a l y s i sh a v es h o w nt h a tt h ew e h n o l o g yp r o p o s e di nt h i sp a p e r c a nr e c o n s t r u c tt h eh i g hf r e q u e n c yh a r m o n i cm o r ea r z u r a t e l ya n dc o m p l e t e l ya n dt h e r e c o n s t r u c t e da u d i os o u n dg r e a t a l t h o u g hi nt h ec u r r e n ts t a g e ,t h e r ea r es t i l ls o m e s h o r t c o m i n g si nt h i st e c h n o l o g y , i tc a nb ei m p r o v e dl a t e rb y f u r t h e rs t u d i e s k e y w o r d :a u d i oc o d i n gh i g hf r e q u e n c yr e c o n s t r u c t i o nh i g hf i d e f i t y l o wb i t r a t em u l t i m e d i ac o m m u n i e a t i o u s 创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 链壁新茁施 本人签名:! ! = :。! 竺 日期上坚2 :! ! 鉴 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 本人签名 导师签名:墨蔓竺 日期主巡:! :丛 日期翻:! :兰器 第一章绪论 第一章绪论 1 1 前言 近年来,随着多媒体和网络通信技术的飞速发展,数字音频技术逐渐代替了 模拟音频技术,成为多媒体技术领域内重要的研究方向。数字音频己经在数字影 音系统、高清晰度电视( h d t v ) 、数字音频广播( d a b ) 、电话会议系统、无线通 信、互联网多媒体业务等领域中得到了广泛的应用【l 】。然而,对于数字化后的音 频信号,如果没有有效的压缩编解码方案,海量的数据将给存储和传输带来巨大 的压力,这就促进了各种音频压缩编码算法的发展;同时,随着人们对多媒体业 务个性化需求的不断提升,音频编码质量越来越显得重要,所以高保真、低速率 音频压缩编码算法成为当今音频编码界的研究热点。 1 2 音频压缩编码概述 音频编码的主要目的是力求以尽可能小的数据量表示尽可能多的信息,因此, 音频编码也称为音频压缩编码。音频信号数字化之后,所面临的第一个问题就是 如何实现数字音频的有效存储和传输,因此,为了降低传输或存储的费用,对数 字音频信号进行有效的压缩极为重要【2 】【3 】。代表音频编码算法压缩效率的指标是 编码速率,又称编码比特率,编码比特率实质上反映了处理的信息量,降低编码 比特率必然会丢失一部分信息。然而,统计分析表明,无论是语音信号还是音乐 信号,都存在着多种冗余信息,主要包括时域冗余、频域冗余和感知冗余信息, 这为音频编码算法的发展提供了事实依据。现代音频编码算法大多根据音频信号 的这种统计特性来降低比特率,并且形成两个方面的处理原则:一是用部分音频 信号预测之后的部分信号或重建部分信号,或者利用一组适当的信号函数集来更 有效的描述音频信号,从而去除音频信号的冗余信息;二是用“感知不相关”准 则去除人耳不能感知的音频信息,从而去除感知冗余信息【4 j 。 音频编码算法一般可分为有损编码和无损编码两大类垆】,而按照具体处理方 案的不同可将音频压缩编码分为波形编码、参数编码,以及多种技术相互融合的 混合编码等。对于各种不同的压缩编码方法,其算法复杂度、重构音频信号的质 量、压缩比、编解码延迟等都有很大的不同,因此其应用场合也各不相同。 2 高保真低速率音频编码关键技术研究 1 2 1 波形编码技术 波形编码是指直接对音频信号时域或频域波形样值进行编码【”。它主要利用 音频样值的幅度分布规律和相邻样值间的相关性进行压缩,目标是力图使重构后 的音频信号的波形与原音频信号波形保持一致。由于这种编码系统保留了信号原 始样值的细节变化,从而保留了信号的各种过渡特征,所以,波形编码适应性强, 算法复杂度低,编解码延迟小,重构音频信号的质量一般较高,但压缩比不高。 常见的波形编码方法主要包括自适应差分脉冲编码调制( a d p c m :a d a p t i v e d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 等。 1 2 2 参数编码技术 与传统的音频编码方法相比,参数音频编码对音频信号源的模型和听觉模型 进行了拓展。这种编码方法假设音频信号是由不同种类的信号成分叠加而成的, 每一种信号成分都可以用一种相对简单的音源模型或一组数目较少的特征参数来 表示,同时使用听觉模型,使解码端重建的输出信号尽量在听觉上与编码端的输 入信号一致。 参数编码技术是在信源信号频率域或其他正交域提取特征参量并将其变换为 数字代码进行传输,以及在接收端从数字代码中恢复特征参量,并由特征参量重 建音频信号的一种编码方式。这种方式在提取音频特征参量时,往往会利用某种 模型在幅度谱上逼近原音频。其特点是编码所需速率低,但音频质量不够好。 目前,参数编码技术已用于宽带音频编码中,特别是频带复制技术( s p e c t r a l b a n dr e p l i c a t i o n ,s b r ) 和参数立体声技术( p a r a m e t r i cs t e r e o ,p s ) 已经成为m p e g 的扩展标准,用于增强原有编解码器的质量。 1 2 3 感知音频编码技术 感知音频编码( p a c :p e r c e p t u a la u d i oc o d i n g ) 在编码形式上也属于波形编 码,但其发展基于对音频信号统计特性和人类听觉感知特性的应用。它有效利用 心理声学现象中的掩蔽效应,使用心理声学模型,去除入耳不能感知的音频成分, 并且不用追求最小的量化噪声,只要使量化噪声不被人耳感知即可,所以感知音 频编码算法既能提高音频数据压缩效率,又能保证对音频信号的编解码质量。现 今质量较高的音频编码算法都是感知音频编码算法,例如当今世界最流行的音频 编解码器m p 3 ( m p e g 1p l a y e r 3 ) ,以及迄今为止功能最强大的音频编解码器 第一章绪论 a a c ( a d v a n c e da u d i oc o d i n g ) 川。 感知音频编码算法中广泛应用子带编码和变换编码技术,由于它们都是根据 人耳对声音信号的感知模型( 心理声学模型) ,分析信号频谱,从而决定子带样值 或频域样值的量化阶数和其它参数的选择,因此又可称为感知编码技术。 1 子带编码技术 子带编码的基本思想是将输入的音频信号分解为若干连续的频段,每个频带 称为子带,然后对各子带分量根据其不同的分布特性采取不同的编码策略以降低 码率。由于人耳对不同频带信号的感知敏感度不同,能够容忍的量化噪声也不同, 因此在编码时各子带的量化阶数不同,采用了动态比特分配技术,可以提高编码 效率。子带编码技术相对波形编码技术而言要复杂得多,同时编码效率、声音质 量也大幅提高,编码延时相应增加。 2 变换编码技术 变换编码技术与子带编码技术的不同之处在于该技术对一段音频数据进行 “线性”的正交变换,对所获得的变换域参数进行量化、传输,而不是把信号分 解为几个子频段。通常使用的正交变换有离散傅立叶变换( d f t ) ,离散余弦变换( d c t ) 、改进的离散余弦变换( m d c t ) 等。根据信号的短时功率谱对变换域参数进行 合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算 复杂度的提高。变换域编码具有一些不完善之处,如块边界效应、预回声、低码 率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除, 同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。 1 2 4 混合编码技术 综上,波形感知音频编码算法可以获得较高的音频编码质量,但是压缩效率 较低,并且由于心理声学模型理论的限制,很难进一步提高压缩比;而参数编码 技术虽然可以获得较高的压缩效率,但是其提取的音源模型和特征参数由过于抽 象,音频编码质量较低。如果将感知编码与参数编码结合起来,采用混合编码的 方法,就可以在较低的编码比特率下获得较高的音质【”。如码激励线性预测 ( c e l p :c o d ee x c i t e dl i n e a rp r e d i c t i v e ) 、多脉冲线性预测编码( m p l p c : m u l t i p u l s el i n e a rp r e c l i e t i v ec o d i n g ) 等。 现今功能强大的音频编码算法e a a c + ( e n h a n c e da a c p l u s ) 和m p 3 p r o 都是 混合编码器e a a c + 是a a c 与s b r 和p s 相结合产生的【”,m p 3 p r o 是m p 3 与s b r 相结合产生的,在加入了参数编码技术s b r 后,原编解码器都得到了3 0 左右的 压缩比,并且e a a c + 在编码速率4 8 k b p s 以上和m p 3 p r o 在编码速率6 4 k b p s 以上 时,都能达到接近c d 的“透明”音质。但是在3 2 k b p s 以下比特率时,编码质量 4 高保真低速率音频编码关键技术研究 仍有明显缺陷,仍需做进一步研究来提高质量。 1 3 本文研究的内容和主要研究成果 本课题的工作是研究高保真低速率音频编码关键技术,意义在于可以应用到 现有音频编解码器,并且应用后可以提升原编解码器的处理质量或压缩效率,其 特点是要求能使原音频编解码器获得更高的压缩效率,同时在低比特率下,还要 使音频处理质量接近c d 的“透明”音质。 通过对现有的音频编码关键技术的算法研究与性能分析,本文研究并设计了 一种更高质量的高频重建算法。 论文所涉及的主要工作内容如下: ( 1 ) 讨论和研究实现高保真低速率音频编码技术的框架模型,根据框架逐步 分析和研究现有高质量、低速率音频编码关键技术,包括核心编码技术、高频重 建技术和参量立体声技术,重点分析与研究了s b r 频带复制技术的理论和技术特 点; ( 2 ) 生成功能独立的s b r 编解码器,分析s b r 性能参数,并用主观测试和 频谱分析方法验证s b r 技术的性能,总结分析s b r 技术的缺陷; ( 3 ) 依据对现有技术的分析与研究,结合音调理论和谐波变换理论,设计新 的高频重建技术,要求新技术高频重建质量高于现有技术; ( 4 ) 实现新技术的编解码器,并通过频谱分析,主观听觉比较和客观测试等 方法,比较本文提出的新技术与现有质量最高的s b r 技术的性能,总结分析新技 术优点和不足,提出还需完善的方面。 论文所涉及的主要研究成果包括: ( 1 ) 提出一种高保真低速率音频编码关键技术基于最优频带选择的高频 重建技术,并完成高频重建算法的整体设计,以及编解码过程中各模块算法的设 计; ( 2 ) 通过对音频重建理论和音频特性的研究,在新的高频重建算法中,提出 三种频带复制策略和一种扩展复制策略; ( 3 ) 设计音频短时特性检测算法,根据复制策略的具体特征,设计出一套自 适应的频带复制策略选择机制; ( 4 ) 设计基于最大相关准则的最优频带选择算法,以确保频带重建的准确性, 并加入音频时变特性检测机制,保证算法应用的连续性,并且可以降低算法复杂 度和节省比特率; ( 5 ) 软件实现基于最优频带选择的高频重建技术的编解码器,与现有的质量 最优的高频重建技术s b r 进行质量比较,用m a t l a b 生成波形图给出形象准确 第一章绪论 的分析,并结合主观听觉比较和客观测试结果,得到一致的分析结论,不仅验证 新技术的高性能,而且分析新技术仍需完善和发展的方向。 1 。4 论文的结构安排 论文共分五章,具体内容和结构安排如下: 第一章介绍了论文的研究背景、意义、音频编码技术的发展、以及主要的音 频编码技术,最后简述了本论文的研究内容和结构安排。 第二章首先探讨发展高保真、低速率音频编码技术面临的问题与挑战。然后 探讨高保真、低速率音频编码的实现方案。最后研究和分析现有高质量、低速率 音频编码关键技术的研究,包括核心编码器和多种增强编解码算法,并分析现有 技术的特点,以作进一步研究的依据。 第三章重点分析现有高频重建技术的性能指标,并作具体的主观测试分析其 质量,配合对波形图的分析找出其质量缺陷,为下一步的研究提供依据。 第四章介绍一种自主设计的高保真、低速率音频编码关键技术,基于最有频 带选择的高频重建技术。阐述了它的设计思想、基本原理、编解码过程;重点介 绍提出的三种复制策略和一种扩展策略;着重介绍算法中的复制策略选择算法和 最优频带选择算法;介绍算法中的时变特性检测方法。 第五章首先定性地分析了高频重建算法的运算和存储复杂度:然后用自主研 究的高频重建算法与s b r 算法作质量比较,并用m a t l a b 生成二维、三维波形 图展示处理质量差异。 第六章对论文所做的研究工作及其意义进行归纳和总结,并提出需要改进的 地方。 第二章高保真低速率音频编码及其关技术研究! 第二章高保真低速率音频编码及其关键技术研究 2 1 面临的问题与挑战 研究和发展音频编码算法的目的是为了有效地存储和传输高质量的音频信 号。衡量一个音频编码算法性能的两个重要参数是压缩效率和音频编码质量,这 是确定国际音频编码标准的主要依据。然而提高压缩比与提升音频编码质量之间 存在着内在的矛盾性,编码比特率代表着处理的音频信息量,实现高压缩比就要 通过降低编码比特率,损失音频信息来实现,这样做必然会影响音频编码质量。 音频编码算法始终是在这对矛盾的激化和缓和中发展的,当一种音频处理方法发 展到一定程度时,这对矛盾就会凸显出来,然后研究出更好的音频处理策略时, 这对矛盾便会相对缓和。 由于高压缩比与高音频编码质量之间的固有矛盾,早期只能根据特定的应用 需求采用特殊的编码方法,这样做严重影响了数字音频的应用范围。为了既能提 高音频编码算法的压缩效率,又不影响音频编码质量,音频编码界的专家致力于 去除音频信号中的冗余信息,尽量避免比特率在冗余信息上的浪费,借此来缓解 高压缩比与高编码质量之间的矛盾。由此,感知音频编码技术越来越成为数字音 频压缩技术的主导。感知音频编码是一种追求在主观感知意义上更接近的高质量、 低码率的音频编码技术,因而设计重点从由精确恢复原始信号波形转向充分利用 人类的听觉感知特性,不仅要去除信号的固有冗余,且要能有效去除感知冗余, 所以感知音频编码在保证音频听觉感知质量的同时释放了更大的编码压缩空间。 这使得高保真、低速率音频编码技术的产生成为可能。 现在感知音频编码技术已经得到成功发展,1 9 9 2 年m p 3 编解码技术被纳入 m p e g 1 音频编码标准,被广泛的用于网络、消费类电子和移动终端上,带动了 数字音频应用领域的快速发展。2 0 0 0 年m p e g - 4a a c 音频编解码算法成型,与 m p 3 算法相比,其压缩率和音质都得到了一定程度的提升。尽管如此,m p 3 音频 编码算法在编码比特率1 2 8 k b p s 时才能达到近c d 的“透明”音质,a a c 音频编 码算法在编码比特率6 4 k b p s 以上时才可以得到接近c d 的音质,对于现在的网络 条件,在线点播c d 质量的乐曲,仍然是很难办到的。所以仍需进一步发展高保 真低速率音频编码技术。 本文致力于高保真、低速率音频编码技术研究,目标是增强编码比特率 3 2 k b p s 以下的编码质量,争取在编码比特率3 2 k b p s 时仍能达到接近c d 的音质。 目前的感知音频编码算法已经发展到较高阶段,提高编码压缩比和提升音频编码 高保真低速率音频编码关键技术研究 质量的内在矛盾正处在激化阶段,想要进一步降低编码速率或提高音频质量具有 相当的难度。如果要完成本文的研究课题,必需要发展音频处理的新思路,利用 多种手段缓解提高音频编码压缩比与提升编码质量间的内在矛盾。 2 2 高保真低速率音频编码方案 为了能够顺利地完成对高保真低速率音频编码技术的研究,首先需要确定科 学合理的研究方向,并且提出具有可行性的实施方案。 如果发展独立的高保真低速率音频编码算法,以现在音频编码发展的理论难 以进一步大幅提升压缩比,并且新的音频编码算法无法与现有的音频编码技术相 结合,不利于新算法的推广,不适于数字音频应用需求的快速增长;而研究和发 展音频编码增强模块,可以使多种音频编码技术相结合,在功能和性能上互相弥 补,有利于与现有音频编码算法的兼容,能够得到快速推广,更能推动数字音频 的应用。所以本文采用多模块、多技术相结合的音频编码结构。 多模块结合编码器结构如图2 1 所示。核心编码器是整个组合编码器的核心 部分,具有独立的、完整的音频编码功能,并且本身要求是高质量、低码率的音 频编码技术;增强模块是专门处理某项音频特性的音频处理技术,用来替代或补 充核心编码器的部分功能,并且要求增强技术处理音频特性时所提供的压缩比或 编码质量明显高于核心编码器,增强模块对编码器的扩展是多方面的、多层次的, 应使整体编码器具有良好的兼容性和持续扩展性,增强模块的具体扩展关系如图 所示。 图2 1 多模块结合编码器结构示意图 多模块相结合的音频编码技术为我们进一步发展高保真低速率音频编码技术 提供了广阔的研究方向,核心编码模块和各种音频编码增强模块都可以作为一项 高保真、低速率音频编码关键技术研究。本章对几种主要的高质量、低码率音频 编码关键技术进行研究与分析,包括核心编码技术、频带扩展技术,以及立体声 处理技术。其中频带扩展技术的研究与分析是本章的重点部分,在音频编码领域 第二章高保真低速率音频编码及其关技术研究! 中,实际上与比特率联系最直接的是编码带宽,频带扩展技术占用很小的比特率 可以重建出宽阔的频带,甚至重建全频带,因此,频带扩展技术是高保真、低速 率音频编码发展的关键因素。 2 3 1a a c 概述 2 3a a c 核心编码技术 a a c 是m p e g 迄今为止提出的质量最好的音频编码标准,它的发展经历了 m p e g 2a a c 和m p e g - 4a a c ,m p e g - 4a a c 在m p e g 2a a c 的基础上增加了 感知噪声替代( p e r c e p t u a ln o i s es u b s t i t u t i o n , p n s ) 等技术。a a c 编码算法分为三种 框架,其中a a c l c 是低复杂度模式,更适合作为核心编码算法,在a a c l c 模 式下没有预测和增益控制这两种功能,e a a c + 中使用高效的a a c l c 作为核心 编码算。所以本节主要介绍a a c l c 编解码算法。 图2 2 是从l c 编码器框图,a a c l c 每帧处理1 0 2 4 个p c m 样点,时域音 频信号首先输入到心理声学模型和m d c t 滤波器组,心里声学模型确定m d c t 变换采用的窗类型,一般长窗使用k a i s e r - b e s s e l 窗,短窗使用正弦窗,然后将输 入信号交换成频域样点;立体声预处理模块在编码比特率小于6 4 k b p s 时启用,通 过对频谱样点进行处理,变换成新的双声道样点,来降低低码率下立体声编码的 难度;t n s 模块在心理声学模型输出的感知熵指导下,来控制每个窗口的量化噪 声,t n s 用预测值来代替原始频谱系数,以利于在编码器中窗内的滤波器组控制 时域的预回声:感知噪声替代模块对包含超过较低边界频率的频谱系数的每个比 例因数带进行噪声检测,对类似噪声信号分量进行参数编码,进一步提高a a c 的压缩效率;在a a c l c 中使用了两种立体声编码技术:强度立体声编码( i s ) 和m s 立体声编码,这两种方法可以根据信号的频谱特点有选择地使用,也可以 混合使用,i s 利用人耳对高频信号相位不敏感的特点,只传输高频信号的包络, 可以大大降低所需比特数,m s 模块以和信号m 与差信号s 代替左右声道信号; 采样频谱经过去噪、减少左右声道冗余及相继帧冗余后进入量化编码阶段,在量 化过程中,对给定的数据码率利用信掩比循环计算,得到最佳量化比例因子;最 后得到的数据通过无损编码( h u f f m a n 编码) 生成码流。 1 0 高保真低速率音频编码关键技术研究 - - i b 控制流数据流 图2 2m p e g 4a a c l c 编码器框图 图2 3 是m p e g - 4a a c l c 的解码器框图,解码器接收到a a c 码流后,首先 由比特流解复用器将a a c 码流分解为指导各模块的控制信息和数据码流,数据 码流由无损解码模块根据指定的码本进行h u f f m a n 解码,恢复出量化数据,再通 过反量化器得到频谱数据,控制信息交由各功能模块,指导功能模块的运作:量 化比例因子解码模块将差分解码后得到的量化比例因子与反量化得到的频谱数据 加权,得到实际的频谱值:m s 解码模块通过矩阵运算恢复原始左右声道的频谱 数据:p n s 解码模块根据解码后得到的噪声能量,用随机矢量生成函数产生类似 噪声的频谱,并作能量加权;i s 解码模块通过将右声道频谱对左声道频谱做能量 加权实现立体声解码;t n s 解码模块将频谱数据通过一组l i p , 滤波器,实现时域 噪声整形:合成滤波器组将经过上述各模块处理后的频谱数据转换成时域数据: 如果使用了立体声预处理模块,要将变换后的左右声道数据恢复成原始的双声道 信号,最后输出编解码后的音频信号。 第二章高保真低速率音频编码及其关技术研究卫 :习 无损解码器 i 反量化器 , l比例因子解码 0 比 i m s 立体声解码 特 i a a c 码流 流 - 1 感知噪声替代( p n s ) 解 复 0 用 - li s 立体声解码 - l 时域噪声整形( t n s ) i 一 滤波器组 0 一 立体声预处理恢复 2 3 2 小结 图2 3m p e g - 4a a c l c 解码器框图 a a c 编码算法采用感知音频编码的核心技术,结合了以往感知音频编码算法 的优点,并加入了很多新的功能,在保证音质的同时,更大限度地提升了编码效 率。但是,如果要进一步降低比特率,就只能通过缩减编码频带或提升听觉门限, 无论采用哪种方法都会降低音频质量。 2 4s b r 频带复制技术 由于人耳对低频信号比较敏感所能容忍的量化误差较小,而对于高频信号的 敏感度则较低。因此,目前的数字音频编码技术,在低速率编码时,被迫舍弃高 频信号的编码质量,尤其是感知音频编码算法,为了避免量化误差突破掩蔽阀值, 将比特集中分配给人耳较为敏感的低频部分,大量损失高频部分,使音质变的沉 1 2 高保真低速率音频编码关键技术研究 闷、不明亮。s b r 技术可以有效重建高频频谱,解决了低码率时的高频损失问题, 在保证同等编码质量下大幅提升感知音频编码的压缩效率。 2 4 1s b r 频带复制技术概述 s b r 是一种高频重建技术,由c o d i n gt e c h n o l o g i e s ( c t ) 公司1 9 9 7 年在瑞 典发明发展的,m p e g 在2 0 0 3 年把s b r 标准化为音频扩展技术1 ( a u d i o e x t e n s i o n 1 ) ,成为国际标准。 s b r 采用波形和参数相结合的编码方法,其理论基础是音频信号低频和高频 成分之间具有很大的相关性,音频信号的高频部分可以有效地用低频部分重建 1 0 , 1 1 , 1 2 。s b r 通过分析高频和低频成分之间的相关性与差异性,提取反映关联和 差异的参数或函数集,来利用低频信号实现高频重建功能。 s b r 算法的原理是音频编码的增强技术,必须与核心编码技术相结合。s b r 编解码器与核心编码解码器的结合框图如图2 4 和图2 5 所示【1 3 1 。一般核心编码 器的采样频率是s b r 编码器采样频率的一半,这样可以增强核心编码器的频率解 析度,并且可以增进听觉掩蔽作用的利用。 图2 4s b r 编码器与核心编码器结合框图 一核心解码器三马分析滤波器l 一 主 码 j 兰墓 滤 码流 流 分 解 器波 器 图2 5s b r 解码器与核心解码器结合框图 与核心编解码器结合后,在结构上,s b r 编解码器与核心编解码器是并行的 处理单元,而在功能上,s b r 编码器相当于核心编码器的预处理过程,s b r 解码 器相当于核心解码器的后处理过程。在编码端,核心编码器对输入音频信号的低 频部分进行编码,s b r 编码器负责分析、提取高频重建所需的参数信息,并将参 第二章高保真低速率音频编码及其关技术研究 数码流添加到核心编码器码流中。解码端接收到码流后,先将码流分解,并分别 传送到核心解码器和s b r 解码器,核心解码器输出解码的低频信号,s b r 先利 用核心解码器输出的低频信号复制出高频成分,然后根据提取的高频重建参数对 包络进行调整。s b r 高频重建过程如图2 6 所示。 ( a ) 频带复制( b ) 高频重建 图2 6s b r 高频重建过程。( a ) 复制,( b ) 重建。 2 4 2s b r 编码过程 拿 耄 转 董 1 习 室 器 鋈 一! 竺兰竺竺| - 图2 7s b r 编码算法结构图 图2 7 是s b r 编码算法的结构框图。因为s b r 编码器与核心编码器是并行 处理单元,所以s b r 编码器的输入信号也是原始的p c m 信号。输入信号首先经 由6 4 子带的q m f 分析滤波器组转换成q m f 样点,q m f 样点具有时间和频率双 重解析度,它是后续分析模块的分析对象;s b r 功能模块中最先进行的是时,频网 格生成器,它的功能是确定分析过程中遵循的时间和频率解析度,检测过程每帧 进行,输出的解析度指导后续分析模块;音调检测通过计算q m f 样点的协方差 1 4 高保真低速率音频编码关键技术研究 函数来表示特定解析度下的音调值,音调值包含了局部样点包络的音噪比和包络 特征情况,音调检测模块输出的音调值是附加控制参数的分析基础;附加控制参 数包括反滤波级估计、噪声级估计和丢失正弦波估计等三部分内容,因为这三个 模块都是对频带复制后的包络差异的分析,分析出的参数用来调整包络差异,所 以这三个模块放在一起称作附加控制参量;最后一个模块是量化和编码,s b r 采 用d e l t a 量化,哈夫曼编码方法,分别在时间和频率方向( 包络和频带) 上进行编 码,进而选择比特率较低的码流进行输出。 2 4 3s b r 解码过程 图2 8s b r 解码器框图 s b r 解码过程如图2 8 所示,s b r 解码器的输入为s b r 码流和核心解码器输 出的低频音频信号,因为s b r 提取的指导参数是在分析滤波器组输出的变换域进 行的,自然解码端也要在同样的变换域下重建高频,所以要先对核心解码器输出 的低频音频信号进行q m f 变换,由于核心解码器输出的音频信号为原始音频信 号采样率的一半,因此使用3 2 子带的q m f 滤波器组;s b r 码流解码后,首先用 变换后的低频带信号置换出高频信号,然后根据传递的包络信息、噪声级参数和 添加谐波参数等指导复制得到的高频信号的调整,使其重现原始高频信号特征; 最后,将重构的高频信号与低频信号合并,再使用6 4 子带q m f 综合滤波器组把 变换域信号转换成音频信号输出。 第二章高保真低速率音频编码及其关技术研究旦 2 4 4q 肛分析滤波器组 分析滤波器组的功能是对原始p c m 信号进行时频变换,其目的是得到能反 映低频与高频相关性,且便于分析的子带信号。分析滤波器组输出的变换样点具 有时间和频率双重特性,构成了s b r 的分析平台,在解码端s b r 重建高频信号 也需在q m f 域进行。 s b r 所使用的分析滤器组是“通道q m f 滤波器组,其特点是:可以用复数 变换消除混叠失真:可以根据通道个数对原型滤波器输出进行下采样,使得变换 样点在时隙上保留原始信号的音频特性。q m f 子带样点变换公式【3 , 4 1 如下: 啪) = 势) c o s 警( n 一警) , r ( 圳= r ( 珂) c o s 警卜一鲁i ( 2 - 1 ) h 1 0 i “” l 小,f ) - 篁洳) s i n s i nj 竺生业f n 一生 ( 2 - 2 ) 小,f ) - 萎洳) 笺产卜钏 协z , n = oi 二眦 二i 其中,z 是子带样点指针,0 , 3 2 ,k 是子带序号,k = 0 m 一1 ,m 是滤波 器组通道个数,是原型滤波器阶数。容易看出公式2 - 1 和2 - 2 是幅度时变的余 弦和正弦累加函数的音调变换式,具有良好的谐波特性,因此s b r 在频带复制时 直接使用低频信号复制高频信号,而不需进行复杂的音调和基频检测。 图2 9 分析滤波器组输出包络能量的时频表示 1 6 高保真低速率音频编码关键技术研究 s b r 在分析滤波器组之前使用了较长的输入缓存器,使输入到分析滤波器组 的时域样点包含了更长的时域特性,进而使变换样点表现出更加平稳的特性,便 于对子带包络的特性分析。 图2 9 是分析滤波器组输出的一帧变换信号的能量三维表示图,可以看出频 率方向表现出良好的谐波特性,时隙方向表现出良好的短时音频特性,无论在时 隙方向还是频率方向包络都是连续的。 2 4 5 时频解析度下的包络分析 分析滤波器组输出的变换信号具有良好的时间和频率解析度。分析滤波器组 输出6 4 个子带信号,称为q m f 子带,q m f 子带代表s b r 算法中最高的频率解 析度,输入文件采样率4 8 k h z 时,q m f 子带频率解析度为3 7 5 h z 。为了减少传递 参数,s b r 按照人耳对各频带的敏感程度和临界频带范围,对s b r 域内的q m f 子带分组,构成s b r 比例因数带。s b r 比例因数带根据b a r k 比例带进行划分, 频率越高包含的子带越多,但要做到不因解析度的降低而影响音质。 在噪声级估计和逆滤波估计模块中,进一步将s b r 比例因数带分组,构成噪 声级比例因数带,噪声级比例因数带是按照八度音节的临界频带划分的,但是其 包含整数个s b r 比例因数带。 分析滤波器组输出的每个q m f 子带信号包含3 2 个变换样点,构成子带包络, 子带包络在一定程度上代表了音频信号的时域特性( 参考图3 8 ) 。高低频包络波 形往往有很大差异,所以不能用整条包络进行复制,为了做到细致的频带重建必 须给包络分段,即细化时间解析度。图3 6 中的暂态检测( t r a n s i e n td e t e c t o r ) 模 块、帧分割模块都是用来检测影响时间解析度划分的音频信号特性的,然后由时 频网格生成模块进行包络结构的具体划分。 时间解析度划分根据音频信号特性而定,如果信号在时间范围内较平稳,就 将信号包络等分成两部分,反之,将信号包络细化,进一步提升时间解析度。暂 态检测模块的功能是检测带有高能量的突发信号( t r a n s i e n t ) ,没有检测到 t r a n s i e n t 时,帧分割模块检测是否可以将包络等分成两部分,表示的时间解析度 为半帧的时长,如采样率4 8 k h z 时,时间解析度约为2 1 m s ;如果检测到带有高 能量的突发信号,将包络细化,同样以4 8 k h z 采样率为例,划分的时间解析度一 般在5 m s 左右【1 4 3 。 通常对平稳信号使用较高的频率解析度和较低的时间解析度,而对冲击或突 变信号使用较高的时间解析度和较低的频解析度。时频解析度确定后,就可以将 变换样点在时间和频率的二维平面内分块( 参考图3 8 ) ,s b r 频带复制实际上 是以这些块为基本单位的,每块内变换样点的平均能量是重构高频的重要参数信 第二章高保真低速率音频编码及其关技术研究 息。包络样点平均能量估计公式如下例: 。掣艺瞰,t ) 1 2陋( i ,2 e ( ) 2 砜帮鬃丽再而 沼3 其中,p 是s b r 带指针,是包络指针,t e 为包络起始时隙,t 为s b r 带的起始 q h 伍子带,屯为s b r 带的结束子带。解码端根据包络估计参数计算包络增益, 调罄包络幅唐。 2 4 6 控制参数提取 通常使用频带复制和包络调整方法就可以较好的重建高频信号,但是如果高 低频信号相关性较差,就不能达到期望的质量,甚至使音质变得更坏,这时需要 引入额外描述高频和低频信号之间音频特性差异的参数。s b r 算法中的控制参数 提取模块包括:噪声级估计、逆滤波级估计和添加正弦波估计等,而音调估计模 块是以上三个分析模块的基础。 ( 1 ) 音调估计 音调估计是噪声级、逆滤波级和附加正弦波估计的基础,这三个模块都是为 了补偿高低频成分谐波结构的差异和噪声比率的不同,因此必须有描述和体现谐 波结构及其内在音噪比的参量,才可能进行三个模块参数的估计。s b r 的音调值 估计正是对谐波包络变化的分析,不仅在一定程度上描绘了谐波特性,还体现谐 波中固有的内在音噪比率。一般音调值越大,波形变化越剧烈,音调值越小,波 形变化越平缓。s b r 对音调值的计算是通过线性预测方法实现的,线性预测系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论