电子教案现代声像技术_第1页
已阅读1页,还剩62页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章 数字音频信号源编码知识要点频谱掩蔽时间掩蔽临界频带变换编码子频带编码MPEG-1、MPEG-2和MPEG-4音频编码标准MPEG编码器/解码器的软件和硬件实现7.1 概 述音频数据压缩的必要性由于音频信号的数据量大存储的要求:直接存储将导致存储介质的大量消耗通信的要求:音频信号的实时通信要求数据压缩音频的质量主要以其频率范围来衡量声音质量等级的划分 质 量 频率范围/Hz 典型的取样频率/kHz 常用压缩标准 CD-DA 1020000 44.1、48 MPEG调频(FM)广播3015000 32MPEG 调幅(AM)广播507000 16G.722 电话 3003400 8G.711

2、、G.721 数字音频的质量声音质量越高频率范围越宽要求取样频率和量化精度越高导致数据率越大调幅广播质量的数字音频编码原理音频压缩技术的分类在原理上,大致分成以下几类: 熵编码 波形编码 参数编码 混合编码音频信号的压缩方法 7.2 数字音频数据压缩理论 主要介绍中高质量的音频信号的编码压缩问题音频压缩算法需要综合地考虑可懂度和音质、码率及计算复杂度等几方面的指标音频压缩国际标准7.2.1 数字音频数据压缩的基本依据 音频信号中存在的冗余主要来自三个方面:时域冗余频域冗余听觉冗余可供音频压缩利用的人类听觉特性 人的听觉具有掩蔽效应 人耳对不同频段声音的敏感程度不同 人耳对音频信号的相位变化不敏

3、感音频信号编码分为时域编码和频域编码时域编码方法对取样值采用预测的方法来表示全带宽的音频信号,量化误差不能保证被信号掩蔽频域编码的两种方法:子带编码变换编码7.2.2 听觉掩蔽效应 掩蔽效应人耳对一个声音的听觉感受,受到其他声音影响的现象,是一种常见的心理声学现象种类有两种 :频谱掩蔽时间掩蔽1频谱掩蔽频谱掩蔽表现为在一个较强的声音(掩蔽声音)附近,弱的声音(被掩蔽声音)将变得不可闻这种效应受掩蔽声音和被掩蔽声音之间的相对频率关系影响很大掩蔽门限/掩蔽阈值不可闻的被掩蔽声音的最大声压级掩蔽效应图临界频带定义:一个音调分量可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这个带宽内,噪

4、声的功率等于该音调分量的功率,这时该音调分量处于刚好能被听到的临界状态,即称这一宽度的临界值为临界频带。临界频带的带宽临界频带的带宽Bc是其中心频率f的函数临界频带率z连续的临界频带的序列号单位为Bark(巴克)临界频带的带宽Bc与临界频带率z之间的关系可以近似地用公式表示临界频带率z与频率f之间的非线性关系2时间掩蔽定义在很短的时间间隔内发出的两个声音会产生掩蔽效应也称时域掩蔽效应时间掩蔽分为超前掩蔽滞后掩蔽听觉的时域掩蔽曲线7.2.3 编码方法 1变换编码变换编码概念将时域音频取样信号变换到频域MPEG-1等级3系统MP3系统,采用MDCT,是一种变换编码系统从信息论的角度来看变换编码减少

5、了信息熵,从而可以进行有效的编码2子带编码是一种将时间域和频率域编码组合的技术利用心理声学模型的子频带编码 把音频范围按照临界频带宽度划分为25个子频带: 某些子频带中没有频谱分量 某些子频带中频谱分量在掩蔽听阈以下 分配量化位数的子频带也未必需要让量化噪声低于人耳的绝对灵敏度利用心理声学模型的子频带编码 声压/dB频率/ kHz子带自适应变换编码为了达到最佳压缩效果,在自适应变换编码(ATC)中应用模型自适应地对每个独立子带进行量化子带内的系数都被量化到相同的位数使用FFT和循环量化方法的自适应变换编码 7.2.4 联合立体声编码联合立体声编码一种空间编码技术利用了多声道间的冗余来压缩数据其

6、目的是为了去掉空间的冗余信息1M/S编码2声强立体声(IS)编码1M/S编码中间/旁边立体声编码矩阵立体声编码M/S编码使用矩阵运算M/S编码传送标称化的“和”信号(L + R)与“差”信号(L - R)前者用于中央M(middle)声道后者用于边S(side)声道M/S编码也叫做“和-差编码”7.3 音频编码国际标准 当前到广泛应用的音频编码标准MPEG数字音频编码标准AC-3数字音频编码标准音频编码的主要规格 标 准 规 格 MPEG-1 MPEG-2 Dolby AC-3 取样频率/kHz 32/44.1/48 48 32/44.1/48 样本位数/bit 16 压缩(16) 压缩(16

7、) 最大数据传输率/(kb/s) 448 640 448 最大通道数 2 5.1/7.1 5.1 7.3.1 MPEG-1音频标准MPEG-1标准分三个主要部分:系统视频(Video)音频(Audio)MPEG-1标准利用人的听觉生理和心理特性,在基本的MPEG-1音频编码器中包含一个心理声学模型。听觉的静态阈值特性说明了听觉对不同频率的声音有不同的灵敏度。MPEG-1层次1/2采用子带编码系统将一个短周期内的连续时间取样信号送入数字滤波器中,滤波器组将信号分成32个限带信号以近似人耳的临界频段响应。每个子带都根据所分配的不同比特率数独立进行编码。当前子带及邻接子带的掩蔽阈值可以通过计算每个子

8、带的平均功率得到。然后根据最小闻阈推导出各个子带最后的掩蔽阈值。每个子带的峰值功率与掩蔽阈值的比率由所做的运算决定。利用心理声学模型对音频信号压缩的原理 通过分析每个子带的能量来判断该子带是否包含可听信息 子带中信号被其他强度大的声音所掩蔽,同样不必为这些子带分配量化位数 如果该子带的量化噪声远远低于绝对听阈或掩蔽听阈,则可进一步减少所给的量化位数 MPEG-1 Audio规定了用于数字存储媒介的高质量音频的编码与解码方法MPEG-1不同层次主要性能的比较 层 次 复杂度 压缩率 立体声信号对应的比特率/kb/s延迟时间/ ms 主要应用 Layer 1 最简单 14 384 50 DCC L

9、ayer 2中等 1618 256192 100 DAB、CD-ROM、VCDLayer 3最复杂 110112 128112 150 Internet、ISDN、MP3、CD1MPEG-1音频压缩系统MPEG-1音频编码器的主要部分组成(1)完成从时间到频率映射的滤波器组(2)心理声学模型 (3)量化和编码(4)帧封装 解码器结构2音频层次1编码算法音频层次1(Layer 1)是最基本的音频编码算法将数字音频输入分解到32个等宽的子带中每个子带由12个样本值组成1组,这样形成一帧364个样本MPEG-1音频帧MPEG-1层1数据流格式将数据按一定格式分块层次1一般用于不很强调低码率的场合MP

10、EG-1层1数据流格式头部CRC比特分配缩放因子样本附加数据3音频层次2编码算法层次2在层次1的基础上提供对比特分配、比例因子和取样的附加编码对MPEG-2层2编/解码器来说,预回声是一个主要问题MPEG-1层2数据流格式 头部CRC比特分配SCFSI缩放因子样本附加数据4音频层次3编码算法第1、2层使用的滤波器组的相邻子带之间会发生混叠现象,从而引入新的失真MPEG-1第3层采用了与第1、2层相同的滤波器组MDCT可以对这种失真进行补偿,从而将频率分辨率提高MDCT的性能优于DCT,并且有快速算法MPEG-1 MP3编码器结构图层次3引入了新技术提高压缩比而不降低音质 采用多相子带滤波器组和

11、MDCT滤波器组混合的方式来提高频率分辨率。 层3采用噪声分配的方法实现动态比特分配,加入了非均匀量化,量化可分为三层。 MDCT滤波器组能在低的频率分辨率和高的时间分辨率之间切换以减少预回声。 量化值的熵编码采用Huffman编码。 MP3在各种音质下的性能音质要求 带宽/ kHz 模 式 比特率/(kb/s) 压缩比 电话 2.5 单声道 8961 优于调幅广播 7.5 单声道 32241 类似调频广播 11 立体声 5664 26241 CD 15 立体声 112128 12101 5MPEG-1音频压缩的实现(1)单片编/解码集成电路 (2)高性能数字信号处理器 语音输出技术 音乐输出

12、技术 音频/视频同步技术 语音的智能化输入技术7.3.2 MPEG-2音频标准 MPEG-2音频新的特点:后向兼容(BC)MPEG-1音频提供扩展了3/2多通道音频的能力一个可选的低频增强(LFE)通道1MPEG-2音频的主要特点在保持MPEG-1原有取样率的基础上又扩充了较低取样率的标准,码率进一步降低。采用多通道音频系统。MPEG-2音频数据帧结构和MPEG-2音频环绕立体声系统的扬声器布局也有改进。扩充较低的音频取样频率及其相关性能新扩充的较低取样频率/ kHz 1622.0524音频带宽/ kHz 7.510.311.25数字帧长/ ms 第1层 2417.416第2层 7252.54

13、8第3层 3626.25242MPEG-2 BC和MPEG-2 LSF制定MPEG-2的目标主要有两个: 与已有的MPEG-1系统向下兼容地进行多声道扩展的编码标准MPEG-2 BC 在较低采样频率上效率高于MPEG-1的音频编码标准MPEG-2 LSFMPEG-2 LSF的基本思想Low Sample Frequency extension优点:提高较高频率分辨率滤波器组的编码增益提高了主要信息对附带信息之比音频环绕立体声系统的扬声器布局(a) 音频环绕立体声系统的扬声器布局(b)3MPEG-2 AAC先进音频编码技术AAC,Advanced Audio Coding与MP3相比AAC大大增

14、强了音频编码的灵活度AAC系统包括两种立体声编码技术:中间/旁边(M/S)立体声编码强度立体声编码AAC工作过程输入PCM信号按每声道1024点划分成帧心理声学模型并行地对这段输入信号进行计算心理声学模型的另一个重要输出是决定一帧数据进行MDCT变换的块类型以比例因子频带为基本单位对频谱分量进行量化和无噪声编码在预回声控制方面AAC有其独到之处AAC采用了频域预测进一步去除帧间的相关性MPEG-2 AAC编码器框图 7.3.3 MPEG-4音频标准简介 MPEG-4的优越之处不仅支持自然声音编码,而且支持合成声音编码自然音频编码提供了三种编码方案:参数编码、码本激励线性预测编码和时/频编码合成

15、音频编码分为两种方案:文语转换和结构音频MPEG-4音频能实现低码率高质量音频编码每一个声道的最大数据传输率只有64 kb /s7.3.4 杜比AC-3AC-3技术源于HDTV和数字有线电视的音频编码格式由美国杜比(Dolby)实验室开发研制的AC-3是一种高效率编码采用自适应变换编码(ATC)更好地模拟了人耳的听觉特性AC-3编码的主要原理(1)窗处理(2)AC-3滤波器组(3)对变换系数的处理 (4)耦合声道 (5)帧格式形成AC-3编码框图 AC-3解码框图 本 章 小 结音频的质量可分为四个等级,声音质量和频率范围与取样频率和量化精度相关数字音频数据压缩利用人类听觉特性压缩时域冗余、频域冗余、听觉冗余等音频压缩编码类型有熵编码、波形编码、参数编码、混合编码。具体方法有变换编码、子频带编码、联合立体声编码本 章 小 结音频编码国际标准有MPEG-1、2、4音频编码标准和AC-3音频编码标准等MPEG-1音频标准的信号处理过程包括从时间到频率映射的滤波器组、心理声学模型、量化和编码、帧封装。不同的MPEG-1层次提供不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论