




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
安徽广播电视台播控中心音频压缩原理及AC-3编码流程分析安徽广播电视台 梁彦摘要:本文从音频压缩原理和人耳声学特性的出发,讲述了声音的主要声学现象及其成因和音频信号压缩的主要思路,跟着详细描述了AC-3多通道编码器的信号处理流程,最后总结了AC-3编码取得高效压缩编码效果使用的主要方法,对读者进一步了解当前主流的多通道音频压缩编码算法有积极的意义。关键字:AC-3、编码流程、音频压缩1引言随着听众对音质和声音环境要求的越来越高,5.1声道的音频节目已经开始进入电影院和家庭。这同时也伴随着声音信号的传输。对于电视台来说,如何将制作好的音频节目,完整的传递给观众成为广播电视工程人员的考虑问题。而音频压缩又是音频节目传输环节中的重中之重,因此本文主要通过简单介绍音频压缩原理和主流的多声道压缩算法AC-3工作流程,给广大电视工程工作者提供有益的参考资料。2音频压缩原理和人耳声学特性音频的压缩编码一般分为 有损压缩和无损压缩两种,无损压缩一般使用霍夫曼编码或游程编码,有损压缩一般伴随着域变换和量化,根据人耳的听觉掩蔽效应特性,去掉声音中人耳听不到的或可以忽略的数据从而达到压缩的目的。听觉掩蔽效应主要分为时域掩蔽和频域掩蔽,时域中强声音信号分量可掩蔽附近(该时间点前后)弱的声音分量,而且这种效应随着信号的频率而变化。在频域中,强信号可以掩蔽某一极限带宽内的弱信号。一般而言, 人耳的听觉像20Hz20kHz 带通滤波器, 它对不同频率的信号有不同的感知辨别率。相对于高频而言, 低频的声音更易被人耳感知, 其中尤以对2kHz4kHz 的信号最为敏感, 因而形成了图1 中的绝对可闻阈曲线。绝对可闻阈是指寂静时听觉可听到的各频段的最低音量。但遮蔽效应对于听觉特性有着很大的影响。遮蔽分为同时性的遮蔽和非同时性的遮蔽。前者是频域下的一种现象, 指在相近的频率下, 强度较大的信号会遮蔽较小的信号。后者也称时间的遮蔽性, 是指在短暂的时间间隙内, 强度大的信号遮蔽较小的信号, 它又分为前遮蔽和后遮蔽。前遮蔽是指强度大的信号遮蔽发生较早的小信号, 后遮蔽则是强度大的信号遮蔽发生较晚的小信号。通常前遮蔽的持续时间为20ms, 对之前的声音的影响几乎可以忽略; 而后遮蔽所产生的效应相对大而且持久, 一般可达100200ms ,所以应用更为广泛。典型的听觉心理特性如图1 所示的频率特性(左)和时间特性(右)。图1 中, 噪声A 因在绝对可闻阈以上而可闻, 但噪声C 因在绝对可闻阈以下, 故听不到。如左图所示, 当有黑线所示的某频率信号存在时, 靠近它的本来可以听见的噪声B 就变得听不见了, 这种现象就是同时性遮蔽效应。而如右图所示, 当某时刻有黑线所示的信号存在时, 尽管前面的噪声D还可以听到,但位于其后面的比它小一些的本来可听见的噪声E 也变得听不见了, 这种现象称为非同时性遮蔽效应。两种效应合成的结果形成了实际的可闻阈。图1声音频域时域掩蔽曲线3 AC-3压缩编码流程分析AC-3多通道自适应变换编码根据心理声学模型将多个声道编码成一个声道,并保持较低的码率,在同等质量和码率下其音频质量要比同样数量的多通道声音单独编码的质量要好。虽然AC-3编码的标准配置是SMPTE推荐的5.1声道(全频段左中右左环绕右环绕加LFE低频段),但是AC-3的算法本身和声道数无关。除了5.1声道的标准配置外,AC-3编码还支持单声道、双声道、立体声、3/0(左、中、右)、2/1(左、右、环绕)、3/1(左、中、右、环绕)、2/2(左、右、左环绕、右环绕)、3/2(左、中、右、左环绕、右环绕)多种音频通道模式,上述模式中LFE(Low-frequency effects )声道并不包含在内,但任何一种模式都可以附加LFE声道。AC-3编码输出的比特率范围可以从32kbps640kbps,而采用5.1标准模式时,根据实际应用情况统计,320kbps384kbps的码率就可以获得一个高压缩比、高保真的音频效果。同时AC-3数据流中可携带多种元数据,可以实现音频动态范围压缩,对白标准化、节目间电平匹配、下混合、版权信息等功能。下面就详细介绍编码器和解码器的主要功能模块和信号流程。3.1编码器工作流程11. 输入缓冲器AC-3是分块编码器,因此需要一个缓冲器来存储时域采样的bit流,一般每个块包含512个样点,每个样点的字长最多可达24bit。2. 输入滤波器受到人耳听觉频率特征的影响,时域波形在处理以前需要经过滤波去除直流信号,5个全频段信号经过一个3Hz的高通滤波器,1个低音信号经过一个120Hz的低通滤波器。3. 瞬时检测为了避免瞬时的信号出现在块的边缘,避免掩蔽效应,防止声音信号被忽略,编码器使用一个高频带通滤波器来检测瞬时现象,检测信息将提供给TDAC滤波器组调节相应块的大小。4. TDAC(time domain alias cancellation)滤波器组每个通道的时域输入信号在这里被单独划分成多个窗口,并且经过一个基于TDAC的分析滤波器组滤波,然后经过FFT变换得到TDAC变换系数。然后编码器将6个声道的变换系数组成一个整体。解码器可以通过这些系数的反变换重构出时域信号。同时滤波器组使得每个块有50%的重叠来避免块边缘的不连续性。5. 浮点变换AC-3 TDAC变换系数被转换成浮点数,浮点数分成尾数和相应的指数,分别送入定点DSP处理芯片处理。采用浮点数表示系数,可以表示更大的动态范围,因此AC-3保留了声音信号AD/DA转换18-22bit的高分辨率。6. 载波预综合一般来说,多通道编码需要的平均比特量可以粗糙地和通道数的平方根成比例,即有如下计算公式其中,a表示平均比特率,s表示相同情况下单通道编码输出比特率,c表示通道数,例如,单通道编码s需要128Kbps,那么5.1声道则需要,对于AC-3标准模式下使用的最少数据率320Kbps来说也是很充裕的。对于要求高的信号,AC-3还可以选择高频载波分量预综合技术来提高更多的编码增益。这项技术是基于人类听觉系统的高频部分的心理声学现象来删除高频局部冗余信息,原理是因为在信号高频部分,人耳定位声源主要和高频段的包络有关,而不是声音信号的频谱本身。AC-3正是利用这一点把高频子带信号分离成包络和载波两个分量,一般来说,编码包络信息要比载波信息采用更高的精度,如果需要,考虑到通道载波的相关性,还可以在多通道组合载波分量。这样做只对音频信号有较小的影响,因为定位信息被保留在包络数据中,而高频段载波的耦合性组合对听众的耳朵基本都产生相同的听觉效果。被编码的载波信息增加到TDAC变换系数里的尾数和指数队列,而包络信息则作为耦合系数被单独传输。7. 全局比特分配统一的多通道编码的主要优势就是可以使得比特分配根据需要在各个通道之间灵活使用来适应信号变换的要求。AC-3比特分配器根据TDAC系数的内在的掩蔽效应和绝对听值门限,再结合定长的TDAC指数(指数长度固定,不参与量化),确定每一个尾数的量化精度,也就是需要量化的比特数。这个计算是在全局范畴的,也就是把所有通道看作一个整体共同使用一个单一的比特池,很少有确定的和预先指定分配的比特量。8. 量化比特分配计算的结果被用来量化TDAC尾数数据,简单地发送该值的n位有效位,这个值被换算和偏移到以零为中心、上下幅度相等、对称的量化级,再使用负向抖动来最小化失真。解码器解出尾数后进行补偿处理恢复实际的尾数值。编码器可以选择在量化过程中抖动数据。在传输数据中的工作模式位中指出是否抖动并且提供同步信息,因此解码器可以提取相同的抖动数据来重构尾数。9. 数据打包输入缓冲器3Hz高通滤波窗格化TDAC滤波浮点变换高频载波包络分离全局比特分配量化打包瞬态检测指数尾数尾数包络图 AC-3编码器流程图6通道音频上面几步的处理将6个通道的时域信号的每个块转变成一系列队列和数值,这些值包括TDAC指数和量化的尾数、比特分配信息、耦合系数和抖动标志。在编码器最后一级这些信息和同步信息、一个包头以及可选的误差校正信息一起被打包成一个块,彼此之间有一定的逻辑关系,因此解码器可以方便的解包。编码器流程图如图所示3.2解码器工作流程解码器工作原理相当于编码器工作的逆过程,但是它采用了编码器的中间结果,相对来说比较简单,主要处理步骤如下:1. 输入缓冲器解码器和编码器类似,也是块结构的,在处理之前先和输入数据流建立和保持同步,然后在输入缓冲器中采集整个数据包。2. 误差隐藏每个解码器的输入数据块不但要检测它内部的一致性,而且还要显示外部误差校正处理器的状态。如果误差校正处理器指出一个不可校正的错误,那么解码器将使用后一个好的包来代替当前包达到一定程度下隐藏错误的效果。由于信号重构过程中的重叠特性使得解码器对这种误差隐藏形式相对来说有较好的效果,当然解码器由于误差扩散会导致一段静音。在电影胶片中还可以使用已经存在的模拟声轨代替受损的声音包。3. 固定格式数据解包数据解包分为两个部分即固定位置数据和可变位置数据,固定位置数据包括指数、耦合系数和模式标志,可以直接取出,这些数据的相关部分被用来恢复比特分配信息,然后用这些信息来解开可变位置数据,主要是TDAC变换的尾数。4. 解码器比特分配除了解码器使用编码器传输过来的中间结果以节省解码时间以外,解码器的比特分配规则和编码器分配器是几乎一致的,还可以选择在编码器不传输比特分配信息的情况下,由解码器根据比特分配规则在某一时刻计算出一个通道的比特分配后解码,减少解码器内存的需要。当然,为了使可变格式数据适时地被解出,解码器的比特分配必须和编码器的比特分配精确匹配,否则就会在输出端引出人造的叽叽喳喳的噪声。5. 可变格式数据解包解码器中比特分配信息恢复以后,就可确定每一个尾数的量化大小,从被编码的比特流中解出可变数据。6. 定点数转换为TDAC反变换做准备,尾数和指数被组合并重构成浮点TDAC系数。如果增加了抖动处理,将在这里做去抖动处理。7. 高频载波插入高频系数在编码器中被分为载波和包络信息,这里通过载波和耦合系数重构高频系数。8. 逆变换每一个通道恢复TDAC变换系数,然后经过TDAC逆变换成时域的、窗口化的、重叠的信号,再重新组合成数字时域输出信号。输入缓冲器误差检测定点数据解包TDAC逆变换可变格式解包高频载波包络插入全局比特分配定点数转换编码输入指数图 AC-3解码器流程图窗口化去重叠6通道输出注意:低音声道的系数在中频和高频区用0来填充,因此低频时域输出也是满频段。以下是解码器流程图3.3AC-3音频帧结构上面两节简要说明了AC-3编解码器的编码和解码步骤,根据ATSC AC-3编码标准,编码器和解码器之间是通过打包的音频帧来通信,每一个音频帧包含6个通道的音频块,每个音频块包含256点音频采样点的数据。音频帧主要由同步信息(Synchronization Information,SI)、比特流信息(Bit Stream Information,BSI)、音频块(Audio Block,AB)、辅助数据区(Auxiliary Data Field,AUX)、循环冗余检验(CRC)几个基本段组成。帧结构如下图所示:4总结综上所述,AC-3压缩编码对多声道音频压缩取得良好的效果,主要有以下几个特点:1. 在单声道音频编码方面,对变换系数采用指数和尾数的传递方式,指数不量化,同时作为尾数的bit分配规则。节省了传输量化信息的开销。2. 编码增益主要产生在尾数的量化上,其它部分的处理对音质没有引向。3. 充分利用人耳的心理声学模型,进行冗余数据去除,即对尾数量化的比特分配规则。4. 在多通道之间采用高频耦合,共用数据和bit共享池的方式进一步降低了数据量。5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全管理模拟测试题
- 2025年大数据数据预处理面试题与答案
- 2025年安全生产培训考试题及答案版
- 2025年教育单位会计考试模拟题及答案详解
- 2025年急救技能认证考试题集
- 2025年宁夏安全员安全生产知识题集及答案
- 2025年供电所台区经理招聘笔试模拟试题
- 2025年仓储管理师初级笔试模拟题及答案
- 2025年新能源储能资金申请项目评估
- 数字科技考试题及答案高一
- 2025年公平竞争审查知识竞赛考试练习题库(正式版)含答案
- 全力以赴战高考乘风破浪正当时(课件)-2025-2026学年高三上学期开学第一课主题班会
- 登革热与基孔肯雅热防控指南
- 学校2025年秋季学期1530安全教育记录(全学期带内容模板)
- 2025四川农信(农商行)社会招聘800人笔试历年典型考题及考点剖析附带答案详解
- 员工社保补贴合同协议
- 学校校园膳食监督家长委员会工作制度
- 人教版2024-2025学年七年级数学上册教学计划(及进度表)
- 2021年高考英语试题及答案(安徽卷)
- 教育爱的特征
- 网络管理与维护(第二版)全套电子课件完整版ppt整本书电子教案最全教学教程整套课件
评论
0/150
提交评论