版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、音频压缩编码技术信息学院电子二班 本内容参照清华大学出版社许志祥编著的数字电视与图像通信技术2009年8月第1版。先讲声音编码机器压缩依据,分析人的听觉生理-心理特性,再简单介绍数字音频信号压缩编码的主要类型,最后重点介绍MPEG-1音频压缩编码标准。一、概述二、人的听觉生理心理特性三、数字音频信号压缩编码的主要类型四、MPEG-1音频压缩编码标准一、概述1、声音(Audio) 声音的传送是通信中一个极为重要的内容。电视及图像通信中除了传送图像外,传送声音也是极为重要的,如在会议电视中,由于通信线路带宽的限制,图像是可以跳帧的,每秒钟能传送10帧已经很不错了,但语音的传送却不可以断续,而且要有
2、较高音质。2、声音编码(Audio Coding) 声音编码(Audio Coding)是一类高保真的音频编码,它的带宽应为20Hz20kHz ,但在许多场合,主要是传送语音而不是音乐音频带宽在50Hz7kHz就够了。在声音编码中主要传送语音的一类编码称之为语音编码(speech coding)。数字声音信号与图像信号一样,通过取样、量化、编码后的数据量也非常大,传输与存储均有很大困难。3、压缩依据 声音信息能够进行压缩的基本依据是声音信息的冗余度及人类的听觉特性。 从信息保持的角度讲,只有当信源本身具冗余度,才能进行压缩。因为语音和音乐信号中存在着时域信息冗余及频域信息冗余,所以可以进行压缩
3、,这是对音频信号进行压缩的一个理论基础。 语音和音乐信号最终是传送给人听的,人的听觉生理心理特性在整个音频传输过程中起着重要的作用。由于人们的听觉系统存在着某些不敏感效应,某些情况下的音频不能被感知,因此从感知效果来看这些不敏感的音频分量可认为是知觉冗余。如果将这部分冗余压缩掉,可提高编码效率,这是音频压缩的另一个理论基础。4、对音频数据压缩的两个途径 (1)利用信号本身的统计特性,在完全不丢失信息的情况下进行高效的熵编码(平均信息量编码) (2)利用人们对音频信号的感知特性,通过省略人们所不能分辨或不敏感的信息来压缩信息量,这就是知觉编码。二、人的听觉生理心理特性 听觉的掩蔽效应是声音编码的
4、基础,掩蔽效应既和频率与有关,也和时间域有关。1、频谱掩蔽效应 若有一个声压强度达70db、频率1kHz的纯音出现时,处于1kHz邻近某一频带内强度较小的信号声音信号人耳是听不见的,即被1kHz纯音掩蔽掉了。2、时间掩蔽效应 除了在较强的声音信号出现时,弱信号会被屏蔽掉外,在强的声音信号出现之前或之后的短暂时间内已存在的弱因信号也会被强信号屏蔽掉,分别称为前掩蔽和后掩蔽,这种情况叫做时间掩蔽效应(Temporal Masking Effect)。3、方向掩蔽效应 人耳除具有听觉掩蔽效应外,还不能分别判断频率接近的高频声音信号的方向,在声音编码中可利用此特性,把高频声道的多个部分耦合到一个公共声
5、道,已达到压缩编码的目的。三、数字音频信号压缩编码的主要类型 数字音频信号的压缩编码主要分为熵编码、波形编码、参数编码和混合编码四种类型。1、熵编码 主要包括霍夫曼编码、算术编码与游程编码。2、波形编码 主要包括全频带编码子带编码和矢量量编码,波形编码能够在高码率的条件下获得高质量的音频信号,因而适用于高保真语音及音乐信号的压缩编码。3、参数编码 指使用合适的模型参数与参考激励信号来模拟音频信号进行编码,当声音重放时,根据这些参数重建音频信号,这就是通常所说的声码器(Vocoder)。参数编码压缩比很高,计算量也很大,因而不适合高保真要求的应用场合。4、混合编码 混合编码充分吸收了波形编码与参
6、数编码的优点,并将二者结合,它包括多脉冲线性预测编码(MPL-PC)、矢量和激励线性预测编码(VSELP)、码激励线性预测编码(CELP)等。四、MPEG-1音频压缩编码标准 1 MPEG-1音频的三个层次 MPEG-1(ISO/IEC11172)标准的第三部分(ISO/ IEC11172-3)称为MPEG-1音频。 MPEG-1音频部分提供单声道(mono)与双声道 (stereo)数字音频,取样频率为32kHz 44.1kHz和48kHz。音频的压缩编码技术采用的是MUSICAM方案。 MPEG-1音频按照压缩编码的复杂程度规定了3个层次,即Layer1Layer2Layer3三个层次的基
7、本模型是相同的。层次越高,压缩比越大,编解码器越复杂。每个层次针对不同应用。三个层的解码器后相兼容,即Layer3的解码器可以对三个层的码流解码, Layer2解码器可以解码Layer1和 Layer2。2 Layer1音频编码器 Layer1是简单型,通常目标码率为为每通道192kb/s。立体声码率为384kb/s,压缩比为14。 Layer1被广泛应用在VCD的音频压缩编码中。 Layer1音频编码器的方框图如下图。PCM输入信号 32 32 比例因子 音频码 流输出 Layer1音频编码器的方框图32子带滤波器组 量化编码比例因子计算心里声学模型动态比特分配512点FFT复 用 器 输入
8、的PCM数字音频信号首先通过一个多通道滤波器组,变换成32个等宽频带子带。这些滤波器的输出是临界频带系数样值。通过研究人耳对频率的分辨率可知,在低频段可以分辨出相差几赫兹的音调声;而在高频段,要分辨音调音,其频率间隔必须相差几百赫兹,这些固有区域称为临界频带。输出临界频带样值是经过量化的,如果一个子带覆盖若干个临界频带,就选择具有最小噪声掩蔽的临界频带,并利用该临界频带来计算分配给自带量化信号的比特数。 心理声学模型首先确定各个子带中允许的最大量化噪声,对小于它的量化噪声的子带都会被掩蔽掉,即如果自带内的信号功率低于掩蔽阈值,则不进行编码。对子带内的信号功率不低于掩蔽阈值时,需要确定编码的系数
9、所需的比特数。 为了实现音频心理声学模型,首先要用快速傅里叶变换FFT将音频样值转换到频域。Layer1的FFT为512点。Layer2的FFT为1024点。将得到的频率组成临界频带,计算由临界频带引起的每个子带的掩蔽值,并计算每个子带的信号掩蔽比SMR,SMR的计算方法是将信号的子带能量除以子带的最小掩蔽阈值,有一组32个SMR(每个子带一个)构成模型的输出,最后将该子带的最大信号/掩蔽阈值率输入给量化器。 根据心理声学模型的信息,决定分配给各个子带的编码比特数,即比特分配。先计算出掩蔽噪声比MNR: MNR=SNR(信噪比)-SMR(信号掩蔽比)一旦所有的自带都计算出了掩蔽信噪比MNR,就
10、可找出其中具有最低MNR的子带,并给这个子带分配多一点比特。当一个子带获得了更多的编码比特,比特分配单位就找出信噪比的新估计值,重新计算该子带的掩蔽噪声比。上述过程重复进行,直到再没有多余的比特可分配了为止,这个过程称为比特分配。 按输入信号的大小来改变量化步长,输入信号小时用较小的量化步长,输入信号大时用较大的量化步长。因此,需要将码中的比特分为两组,一组比特用来量化步长大小,这组比特代表幅度值的“比例因子”,其余比特用来均匀量化与这些量化步长对应的信号,这组比特代表幅度值的“尾数”。通常量化信噪比SNR取决于位数的比特数。 MPEG-1音频数据是一帧一帧传送的,Layer1每帧有32个子带
11、组成,每个子带包括12个样值每帧有384个样值的数据组成。 Layer1的帧结构由32bit的帧同步头开始,其中12bit作为帧同步,其余的20bit为系统信息 ,如比特率标记。然后是长度为16bit的循环冗余码,接着是用于描述比特分配长度为4bit的比特分配域,长度为6bit的比例因子域,以及子带样值域等。3、Layer1的解码系统 声音信号声音码流子带样值及量化32子带合成滤波器组边信息解码解复用与纠错解码4、Layer2和Layer3编、解码器(1) Layer2音频编、解码器PCM输入信号 32 32 音频 码流 Layer2音频编码器框图Layer2音频解码器与Layer1的相同,这里不再重复。32子带分析滤波器组 量化编码比例因子选择比例因子计算辅助数据编码1024点FFT心理声学模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 小学六年级语文下册 自然文化 自然现象观察日记课件
- 2025 小学六年级语文下册 写作训练 提纲修改示例课件
- 2025年AR虚拟艺术展开发协议
- 湖南省长沙2025年上学期九年级期末数学检测试卷附答案
- 硕本护理面试题及答案
- 深度解析(2026)《GBT 34654-2017电工术语标准编写规则》
- 深度解析(2026)《GBT 34399-2025医药产品冷链物流温控设施设备验证 性能确认技术规范》
- 深度解析(2026)《GBT 34234-2017煤制气脱氧硫氰化物催化剂化学成分分析方法》
- 深度解析(2026)《GBT 34136-2017机械电气安全 GB 28526和GBT 16855.1用于机械安全相关控制系统设计的应用指南》
- 四川省广安花桥中学校2026年招聘代课教师备考题库参考答案详解
- 分布式光伏电站运维管理与考核体系
- 国企公房管理办法
- HY/T 0457-2024蓝碳生态系统碳储量调查与评估技术规程海草床
- 幼儿园食品储存安全自查报告的范文
- 公共政策概论-004-国开机考复习资料
- 2025至2030中国船用防冻剂行业发展趋势分析与未来投资战略咨询研究报告
- 空调售后维修管理制度
- 实施“十五五”规划的发展思路
- 东航心理测试题及答案
- 建筑装饰装修施工图设计说明
- 2025年度交通运输安全生产费用使用计划
评论
0/150
提交评论