第6章音频压缩编码技术及其国际_第1页
第6章音频压缩编码技术及其国际_第2页
第6章音频压缩编码技术及其国际_第3页
第6章音频压缩编码技术及其国际_第4页
第6章音频压缩编码技术及其国际_第5页
已阅读5页,还剩56页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章

音频压缩编码技术及其国际标准6.1概述6.2MPEG音频压缩编码6.3DolbyAC-3数字音频压缩编码技术6.1.1人的听觉生理——心理特性6.1.2数字音频信号压缩编码的主要类型6.1.3音频压缩编码技术标准介绍6.1概述声音(Audio)的传送是通信中不可或缺的内容电视及图像通信中除了传送图像外,传送声音也是极为重要的。

如在会议电视中,由于通信线路带宽的限制,图像是可以跳帧的,每秒钟能传10帧已经很不错了,但语音的传送却不可以是断续的,而且要有较高的音质。6.1概述数字声音信号的数据量相比数字视频要小很多,但是如果不压缩的话,对传输和存储的压力还是很大。

数字声音信号与图像信号一样,通过取样、量化、编码后的数据也非常大。如CD机,采用44.1kHz取样,16bit量化,即使单声道,其编码数据也达到:44.1X16=705.6kbit/s传输与存储均有很大困难。6.1概述

声音编码(AudioCoding)是一类高保真的音频编码,它的带宽应为20Hz至20KHz。

但在许多场合,主要是传送语音,而不是主要传送音乐,故音频带宽在50Hz至7KHz就够了。在电话通信中,其带宽只有300Hz至3.4KHz,在声音编码中,主要是传送语音的一类编码称之为语音编码(SpeechCoding)。在电视电话及会议电视中主要是语音编码,而数字电视、高清晰度电视中的伴音却是属于高保真度的音频编码。

6.1概述声音简介声音是听觉器官对声波的感知声波是通过空气或其他介质传播的连续振动6.1概述声波具有普通波所具有的特性反射reflection折射refraction衍射diffraction干涉interference共振resonance声强、响度:声波的压强,或能量,或振幅音高、音调:声波的频率音色、音品:声波的谐波频谱和包络决定6.1概述6.1概述

声音信息能够压缩的基本依据是(1)声音信息的冗余度(2)人类的听觉特性

6.1概述(1)声音信息的冗余度从信息保持的角度讲,只有当信源本身具有冗余度,才能对其压缩。

语音和音乐信号中正是存在着时域信息冗余及频域信息冗余,所以可以进行压缩。这是对音频信号进行压缩的一个理论基础。6.1概述(2)人类的听觉特性

语音和音乐信号最终是传送给人听的,人的听觉生理—心理特性在整个音频传输过程中起着重要的作用。

由于人们的听觉系统存在着某些不敏感效应,对于某些情况下的音频不能被感知,因此从感知效果来看,这些不敏感的音频分量可认为是知觉冗余。

如果将这部分冗余压缩掉,可提高编码效率。这是音频压缩的另一个理论基础。6.1概述音频数据压缩一般有两种方法:

(1)利用信号本身的统计特性,在完全不丢失信息的情况下,进行高效的熵编码(平均信息量编码);

(2)利用人们对音频信号的感知特性,通过省略人们所不能分辨或不敏感的信息来压缩信息量,这就是知觉编码。

6.1概述音频数据压缩一般有两个途径

利用信号本身的统计特性,在完全不丢失信息的情况下,进行高效的熵编码

(平均信息量编码);利用人们对音频信号的感知特性,通过省略人们所不能分辨或不敏感的信息来压缩信息量,这就是知觉编码。针对音频中存在的冗余,目前实用的有熵编码和知觉编码两种方法。6.1概述声音质量评价的两种方法客观质量度量用信噪比(SNR)主观质量度量专家打分有时同时采取两种方法评估,有时以主观质量度量为主6.1概述信噪比SNR(signal-to-noiseratio)SNR表示信号能量和噪声能量的比,单位为分贝(db)

6.1概述主观平均分(meanopinionscore,MOS)

分数质量等级失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)表:

声音质量MOS评分标准6.1概述对响度的感知声音的响度就是声音的强弱在物理上,用声强W/cm2或声压dyn/cm2度量在心理上,用phon(方)或sone(宋)度量人耳的听觉范围听阈:人耳朵刚可听见的声音强度痛域:使人耳感到疼痛的声音强度听觉范围:听阈和痛域之间6.1.1

人的听觉生理——心理特性“听阈—频率”曲线和“痛阈—频率”曲线6.1.1

人的听觉生理——心理特性

人耳能够感知的频率范围约20-20000Hz高保真声音(high-fidelityaudio):10~20000Hz声音(audio/sound):20~20000Hz话音(speech/voice):300~3400Hz亚音/次音(subsonic):<20Hz超声(ultrasonic):>20000Hz6.1.1

人的听觉生理——心理特性

对频率的感知表现为音高客观上用频率表示声音的音高,单位是Hz主观感觉的音高单位则是“美(Mel)”主观音高与客观音高是对数关系6.1.1

人的听觉生理——心理特性“音高—频率”曲线6.1.1

人的听觉生理——心理特性

临界频带人耳刚刚可以感知两种频率的声音有差别的频率范围临界频带的单位叫做Bark(巴克),1Bark等于一个临界频带的宽度。通常认为音频有25个临界频带,见表。临界频带的宽度随频率的变化而变化6.1.1

人的听觉生理——心理特性6.1.1

人的听觉生理——心理特性

掩蔽效应一个声音阻碍听觉系统感受另一个声音的现象前者称为掩蔽声音(maskingtone)后者称为被掩蔽声音(maskedtone)在音频信号的知觉编码中,利用了人们听觉的生理—心理特性对感知的影响,例如人耳的掩蔽效应、频域灵敏度以及相位的不敏感特性等。听觉的掩蔽效应是声音编码的基础,掩蔽效应既和频率域有关,亦和时间域有关。6.1.1

人的听觉生理——心理特性人的听觉生理--心理特性1)频谱掩蔽效应2)时间掩蔽效应3)方向掩蔽效应6.1.1

人的听觉生理——心理特性

1)频谱掩蔽效应一个强纯音掩蔽了其附近同时发声的弱纯音的特性,也称同时掩蔽(simultaneousmasking)

图6.1中示出若有一个声压强度达70dB频率1KHz的纯音出现时,处于1KHz邻近某一频带内强度较小的声音信号人耳是听不见的,即被1KHz纯音掩蔽掉了。图中示出了1KHz纯音的掩蔽阈曲线,一般一个纯音的声压强度越大,对周围频率的掩蔽作用越强。由于处于掩蔽阈曲线下的声音听不见,故这些信息是多余的,无需参与编码输出。6.1.1

人的听觉生理——心理特性图6.1人耳听觉的频率特性曲线频域掩蔽特性频率越接近,掩蔽效果越明显高频方向的掩蔽效果强于低频方向不同纯音的掩蔽效应曲线6.1.1

人的听觉生理——心理特性信掩比SMR(signal-to-maskratio)子带的信号能量除以子带的最小掩蔽阈值SMR小于等于1的子带信号是听不到的噪掩比NMR(noise-to-maskratio)噪声除以最小掩蔽阈值噪声是量化带来的,通过控制量化步长可以控制量化噪声,使噪声能够被掩蔽掉这里所说的掩蔽阈值是全局掩蔽阈值,全局掩蔽需要根据实际情况计算得到。6.1.1

人的听觉生理——心理特性2)时间掩蔽效应(TemporalMaskingEffect)

除了在强的声音信号出现的同时弱信号会被掩蔽掉(称为同时掩蔽)外,在强的声音信号出现之前或之后的短暂时间内已存在的弱音信号也会被强信号掩蔽掉,分别称为前掩蔽和后掩蔽。如图6.2所示。这种现象称时间掩蔽效应

在声音编码时,将时间上相继的一些取样值合并为组块以降低码率,就是利用上述人类听觉的时间掩蔽特性而确定的。6.1.1

人的听觉生理——心理特性图6.2时间掩蔽效应6.1.1

人的听觉生理——心理特性前掩蔽通常有3ms—20ms,

后掩蔽可以持续50ms—100ms

产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间6.1.1

人的听觉生理——心理特性3)方向掩蔽效应

人耳除具有听觉掩蔽效应外,还不能分别判断频率接近的高频声音信号的方向,在声音编码中可利用此特性,把多个声道的高频部分耦合到一个公共声道,以达到压缩编码的目的。6.1.1

人的听觉生理——心理特性

6.1.2数字音频信号压缩编码的主要类型3)参数编码1)熵编码2)波形编码4)混合编码典型的声音采样参数质量采样频率(kHz)采样深度(bit)单道声/立体声(未压缩的)数据率(kb/s)频率范围(Hz)电话*88单道声64.0200~3400AM11.0258单道声88.220~15000FM22.05016立体声705.650~7000CD44.116立体声1411.220~20000DAT4816立体声1536.020~20000*电话使用µ律编码,动态范围为13位,压缩后的样本精度为8位6.1.2数字音频信号压缩编码的主要类型

数字音频信号的压缩编码主要分为熵编码、波形编码、参数编码、混合编码四种类型。1)熵编码

音频信息与视频信息的熵编码基本原理相同,主要包括霍夫曼编码、算术编码与游程编码。

6.1.2数字音频信号压缩编码的主要类型2)波形编码

当音频信号数字化后,考虑人类的听觉特性,使编码信号尽可能既与原始输入信号相匹配,又能适应人们的应用要求。波形编码主要包括全频带编码、子带编码和矢量量化编码,主要有:PCM(脉冲编码调制)、DPCM(差分脉冲编码调制)、ADPCM(自适应差分脉冲编码调制)、SBC(子带编码)。波形编码能够在高码率的条件下获得高质量的音频信号,因而适于高保真语音及音乐信号的压缩编码。6.1.2数字音频信号压缩编码的主要类型DPCM(differentialpulsecodemodulation)基本思想:根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码DPCM与PCM的不同可适应大范围变化的输入信号

6.1.2数字音频信号压缩编码的主要类型ADPCM(adaptivedifferencepulsecodemodulation)核心思想利用自适应的思想改变量化阶的大小,即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化阶和预测值6.1.2数字音频信号压缩编码的主要类型SBC(sub-bandcoding)用一组带通滤波器把输入声音信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的声音信号采用单独的编码方案去编码在信道上传送时,将每个子带的代码复合在一起;在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的声音信号6.1.2数字音频信号压缩编码的主要类型好处有两个根据每个子带信号的特点进行自适应控制量化阶根据每个子带信号在感觉上的重要性进行自适应控制6.1.2数字音频信号压缩编码的主要类型LPC(linearpredictivecoding)话音压缩技术将话音生成机理模型化为若干参数使用线性预测分析话音参数话音合成器根据参数合成话音可以达到极低的码率,但是质量也比较低,而且无法提高6.1.2数字音频信号压缩编码的主要类型3)参数编码

参数编码是指使用合适的模型参数与参考激励信号来模拟音频信号进行编码,当声音重放时,根据这些参数重建音频信号,这就是通常所说的声码器(Vocoder)。参数编码压缩比很高,但计算量也很大,因而不适合高保真度要求的应用场合。6.1.2数字音频信号压缩编码的主要类型4)混合编码

混合编码充分吸收了波形编码与参数编码的优点,并将二者相结合,它包括多脉冲线性预测编码(MP-LPC)、矢量和激励线性预测编码(VSELP)、码本激励线性预测编码(CELP)、短时延码本激励线性预测编码(LD-CELP)、长时延线性预测规则码激励(RPE-LTP)等。表6.1列出了音频信号数字压缩编码算法及其特性6.1.2数字音频信号压缩编码的主要类型表6.1音频信号数字压缩编码算法及其特性

算法

称数据率(kb/s)

标准

应用质量

波形编码PCM

均匀量化

公共网

ISDN

配音4.0~4.5

µ(A)

µ(A)64G.711APCM

自适应量化DPCM

差值量化ADPCM

自适应差值量化32G.721SB-ADPCM

子带一自适应差值量化64G.7225.3,6.3G.723参数编码LPC

线性预测编码2.4保密话声2.5~3.5

混合编码CELPC

码激励LPC4.6移动通信VSELP

矢量和激励LPC8语音邮件4.0~3.7RPE-LTP长时预测规则码激励13.2G.728ISDNLD-CELP

短延时码激励LPC16G.729MPEG

多子带感知编码128MPEGCD5.0杜比AC-3

感知编码AC-3

音响5.0部分音频编码技术质量比较编码器MOS分64kb/s脉冲编码调制(PCM)4.332kb/s自适应差分脉冲编码调制(ADPCM)4.116kb/s低时延码激励线性预测编码(LD-CELP)4.08kb/s码激励线性预测编码(CELP)3.73.8kb/码激励线性预测编码(CELP)3.02.4kb/s线性预测编码(LPC)2.5表:部分编码器的MOS分

6.1.2数字音频信号压缩编码的主要类型

1)电话质量的音频压缩编码技术标准

电话质量语音信号的频率范围为300Hz~3400Hz,采用标准的脉冲编码调制(PCM),采样频率为8kHz、8bit量化时,码率为64kb/s。

1972年CCITT(现为ITU-T)制定的PCM标准G.711正是针对电话质量语音信号的压缩编码标准,其码率为64kb/s,采用非线性量化,质量相当于12bit线性量化。6.1.3音频压缩编码技术标准介绍

1)电话质量的音频压缩编码技术标准

1984年,CCITT公布了自适应差分脉冲编码调制(ADPCM)标准G.721,码率为32kb/s,ADPCM能够对中等电话质量要求的信号进行高效编码。

6.1.3音频压缩编码技术标准介绍

1992年,CCITT制定了短时延码本激励线性预测编码(LD-CELP)标准G.728,码率为16kb/s,其质量与32kb/s的G.721标准大致相当。

码本激励线性预测编码(CELP)实际上是一个闭环LPC系统,由输入语音信号确定最佳参数,再根据最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,它在4~16kb/s的传输速率下可获得较高质量的语音信号。6.1.3音频压缩编码技术标准介绍1988年,欧洲数字移动特别工作组制定了采用长时延线性预测规则码本激励(RPE-LTP)技术的GSM标准,码率为13kb/s。1989年,美国制定了采用矢量和激励线性预测技术(VSELP)的用于数字移动通信的语音标准CTIA,码率为8kb/s。6.1.3音频压缩编码技术标准介绍2)调幅广播质量的音频压缩编码技术标准

调幅广播质量音频信号的频率范围为50Hz~7kHz,CCITT于1988年制定了G.722标准,它采用16kHz采样、14bit量化,信号数据速率为224kb/s,通过采用子带编码方法将输入音频信号经滤波器分为高、低子带,再分别进行ADPCM编码,随后混合形成输出码流,ADPCM可将224kb/s的码率压缩为64kb/s,最后进行数据插入(最高插入速率可达16kb/s)。6.1.3音频压缩编码技术标准介绍

3)高保真立体声音频压缩编码技术标准

高保真度声音信号如CD音质的数字音频信号,取样频率取为44.1KHz,量化级数取为16bit时,双声道的数码率即为1.4Mb/s。对于高保真度的声音信号进行压缩编码的标准主要有以下几种:6.1.3音频压缩编码技术标准介绍

(1)应用在DAB(DigitalAudioBroadcasting)中的码率压缩技术—MUSICAM及ASPEC

MUSICAM(Masking—PatternAdaptedUniversalSubbandIntegratedCodingAndMultiplexingencoding,掩蔽型自适应通用子带综合编码和复用)是欧洲尤里卡147计划开发成功的。该编码方式利用人耳的听觉特性,把声音信号分割为4至64个子带,以不同的量化特性对各子带加以量化。利用人耳的掩蔽效应,对在掩蔽阈以上的声音信号进行编码传输,略去对掩蔽阈以下的声音信号进行编码,使码率大大减小。6.1.3音频压缩编码技术标准介绍

ASPEC(AudioSpectralPercepturalEntropyCoding,音频频谱听觉熵编码),对于16bit输入信号先以TDAC(TimeDomainAliasingCancellation,时域混叠消除)进行处理,然后通过MDCT(ModifiedDCT,改进的离散余弦变换)变换到频域中去,另一方面从经过了FFT的信号来确定各临界带宽的掩蔽阈,再把两者结合起来进行量化,编成熵码(霍夫曼码)。

上述两种编码的码率都能从1.4Mb/s降到128Kb/s、96Kb/s或64Kb/s。6.1.3音频压缩编码技术标准介绍(2)MPEG声音编码算法

1989年ISO/IEC/MPEG征求了14种方案,按算法分类保留了ASPEC、ATAC(AdaptiveTransformAudioCoding)、MUSICAM及SB(Subband)/ADPCM等4种方案,经过在多种码率下的一系列测试,结果ASPEC和MUSICAM在每声道96kb/s-128kb/s码率下具有优越性能,因此便以这两种算法为基础确定了3层算法(La

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论