




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数学与计算机学院数学与计算机学院陈永强陈永强email:email:2013-2014-2第二章第二章 音频处理技术音频处理技术n2.1 音频基本原理音频基本原理 2.1.1 人类听觉特性人类听觉特性 2.1.2 数字音频数字音频 2.1.3 声音声音 2.1.4 语音语音n2.2常用音频压缩标准常用音频压缩标准2.2.1音频压缩基础音频压缩基础2.2.2常用音频压缩标准常用音频压缩标准2.2.3音频文件格式音频文件格式n2.3音频处理软件音频处理软件audition2.3.1功能介绍功能介绍2.3.2编辑环境编辑环境2.3.3基本操作基本操作3第二章第二章 音频处理技术音频处理技术n2.1
2、音频基本原理音频基本原理2.1.1 人类听觉特性人类听觉特性2.1.2 数字音频数字音频2.1.3 声音声音2.1.4 语音语音4近十年来,随着计算机技术的高速发展,以及能同近十年来,随着计算机技术的高速发展,以及能同时满足数字信号的高压缩率和数字信号的高保真时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,及无线通信系统,cdcd品质的数字音频品质的数字音频已经从根本已经从根本上替代了模拟音频。因此,人们对音频信号数字
3、上替代了模拟音频。因此,人们对音频信号数字化处理提出了越来越高的要求,相应软硬件实现化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。手段的效率也在不断提高。52.1.1 人类听觉特性人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。音频信号的感知过程与人耳的听觉系统密不可分。对于对于人类听力感知人类听力感知的研究,其范围从人耳的生理的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。知音频的编码算法都是基于心理声学模型的。62.1.1 人类听觉特性人类听觉特性1 1听阈与听
4、域听阈与听域2 2音调音调3 3响度和响度级响度和响度级4 4绝对听觉门限绝对听觉门限5 5临界频带临界频带6 6同时掩蔽同时掩蔽7 7异时掩蔽异时掩蔽8 8感知熵感知熵72.1.1 人类听觉特性人类听觉特性1 1听阈与听域听阈与听域听阈(听阈(auditory thresholdauditory threshold)就是指人能听到的)就是指人能听到的最低最低声压级声压级(sound power levelsound power level,splspl)。)。听域(听域(audible areaaudible area)是指)是指人能感知的声音的范围人能感知的声音的范围,正常人耳能够感知的频
5、率范围大致是,正常人耳能够感知的频率范围大致是20hz20hz20khz20khz;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是0 0128db128db。8图图2-1 2-1 听阈听阈- -频率曲线频率曲线92.1.1 人类听觉特性人类听觉特性2 2音调音调音调(音调(pitchpitch)在物理学中是指)在物理学中是指声音的高低声音的高低,实际上,实际上就是指人耳对不同频率声音的一种主观感受。就是指人耳对不同频率声音的一种主观感受。音音调主要由声音的频率决定调主要由声音的频率决定,同时也与声音强度有,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之关。频率高的
6、声音,人感觉其音调也较高,反之,人感知音调低的声音其频率也低。,人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为对音调可以进行定量的判断,其度量单位为美(美(melmel),),定义一个声压级为定义一个声压级为40db40db,频率为,频率为1khz1khz的的纯音的音调为纯音的音调为1000mel1000mel。102.1.1 人类听觉特性人类听觉特性3 3响度和响度级响度和响度级响度(响度(loudnessloudness)是)是人耳感受声音强弱人耳感受声音强弱的主观感觉的主观感觉程度,这种感觉与音强、频率和波形都有关系,程度,这种感觉与音强、频率和波形都有关系,其度量
7、单位为宋(其度量单位为宋(sonesone),定义一个声压级为),定义一个声压级为40db40db,频率为,频率为1khz1khz的纯音的响度为的纯音的响度为1sone1sone。响度级(响度级(loudness levelloudness level)是)是指某响度与基准响度相指某响度与基准响度相比的等级比的等级,其度量单位为方(,其度量单位为方(phonphon),定义),定义1khz1khz纯音的响度级为纯音的响度级为1phon1phon。11图图2-2 2-2 人耳可听最小响度曲线人耳可听最小响度曲线122.1.1 人类听觉特性人类听觉特性4 4绝对听觉门限绝对听觉门限绝对听觉门限(绝
8、对听觉门限(absolute threshold of hearingabsolute threshold of hearing,athath)指一个人在没有噪声的环境下,能够产生)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某频率点)的最小听觉,感知到一个纯音信号(某频率点)的最小能量幅度。能量幅度。 绝对听觉门限用声压级表示,静音为绝对听觉门限用声压级表示,静音为0db0db,痛阈为,痛阈为140db140db。 13图图2-3 2-3 绝对听觉门限曲线绝对听觉门限曲线142.1.1 人类听觉特性人类听觉特性5 5临界频带临界频带指一个纯音可以被以它为中心频率,并且具有一
9、定指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(临界频带的单位为巴克(barkbark)。)。 152.1.1 人类听觉特性人类听觉特性6 6同时掩蔽同时掩蔽掩蔽效应是指当两个响度不等的声音作用于掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成
10、分的感知。响到对响度较低的频率成分的感知。 当两个或更多的音频信号到达人内耳时,掩当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。就称同时掩蔽。 162.1.1 人类听觉特性人类听觉特性7 7异时掩蔽异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。则称为超前掩蔽,否则称为滞后掩蔽。 172.1.1 人类听觉特性人类听觉特性8 8感知熵感
11、知熵感知熵(感知熵(perceptual entropyperceptual entropy)指利用心理声学的掩)指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(相关的信息。一般以位(bitbit)作为单位,实际上)作为单位,实际上表示了音频信号压缩的理论极限。表示了音频信号压缩的理论极限。 182.1.2 数字音频数字音频音频信号是音频信号是时间和幅度都连续变化的一维模拟信号时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信
12、号,所以间和幅度都是离散的数字信号,所以数字音频是数字音频是指音频信号经过离散化处理后再用一系列的数字指音频信号经过离散化处理后再用一系列的数字来表示的信号来表示的信号,其特点是保真度好,动态范围大。,其特点是保真度好,动态范围大。数字音频可分为数字音频可分为波形声音波形声音、语音语音和和音乐音乐。波形声音。波形声音实际上包含了所有的声音形式,因此数字音频有实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。时也泛称为声音。19n2.1.2 数字音频数字音频用计算机来处理音频信号必须将模拟音频信号转换用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,过程为:成有限个
13、数字表示的离散序列,过程为:选择采选择采样频率,即进行采样样频率,即进行采样;选择分辨率,即进行量化选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化如;最后编码形成声音文件。声音的采样与量化如图所示。图所示。202.1.2 数字音频数字音频1.采样采样采样(采样(samplingsampling)指把模拟信号在时域上以)指把模拟信号在时域上以固定的时间间隔固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对波形的值进行抽取,再用若干位二进制数表示。对声音波形对声音波形采样的频率直接影响声音的质量采样的频率直接影响声音的质量,采样频率越高,采样频率越高,声音保真度越好,但所
14、要求的数据存储量也越大。声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当根据采样定理,当采样频率大于信号最高频率的两倍时采样频率大于信号最高频率的两倍时,在,在采样过程中就不会丢失信息,并且可以用采样后的信号重采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1khz44.1khz、22.05 khz22.05 khz和和11.025 khz11.025 khz,其中,其中44.1khz44.1khz采样频率是最常用的
15、。采样频率是最常用的。声道数是声音通道的个数,指一次采样的声道数是声音通道的个数,指一次采样的声音波形个数声音波形个数。 212.1.2 数字音频数字音频2.量化量化量化(量化(quantityquantity)的目的是将采样后的信号波形的)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的量化位数越多,所得到的量化值越接近原始波形的采样值。采样值。量化方式有三种:量化方式有三种:零记忆量化零记忆量化、分组量化分组量化和和序列量序列量化化。222.1.3 声
16、音声音声学是研究声音的学科,包括声波的产生、传播和声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为接收。物体振动在弹性体里的传播称为波波,而在,而在空气中传播的波就称为空气中传播的波就称为声波声波,能被人的听觉器官,能被人的听觉器官所感觉到的声波叫所感觉到的声波叫声音声音,其频率一般在,其频率一般在20hz20hz20khz20khz之间。之间。 232.1.3 声音声音声音的三要素是声音的三要素是音调音调、音色音色和和音强音强。 音调是指声音的高低,音调与频率有关。音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。音色是指具有特色的声音。 音强是指声音
17、的强度,也称为声音的响度,音强与音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比声波的振幅成正比 。242.1.3 声音声音声音的质量简称音质。声音的质量简称音质。1 1)与采样频率有关与采样频率有关。对于数字音频信号,。对于数字音频信号,音质的好音质的好坏与数据采样频率和数据位数有关坏与数据采样频率和数据位数有关。采样频率越。采样频率越低,位数越少,音质越差。低,位数越少,音质越差。2 2)与音频处理设备有关与音频处理设备有关。音响放大器和扬声器的质。音响放大器和扬声器的质量能够直接影响重放的质量。量能够直接影响重放的质量。3 3)与信号噪声比有关与信号噪声比有关。在录音时,音频
18、信号幅度与。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。会影响音质。252.1.3 语音语音26图图2-8 2-8 计算机处理语音过程计算机处理语音过程 27第二章第二章 音频处理技术音频处理技术n2.2常用音频压缩标准常用音频压缩标准2.2.1音频压缩基础音频压缩基础2.2.2常用音频压缩标准常用音频压缩标准2.2.3音频文件格式音频文件格式282.2.1音频压缩基础音频压缩基础1 1数据压缩条件数据压缩条件2 2数据冗余数据冗余3 3数据压缩算法分类数据压缩算法分类292.2.1音频压缩基础音频压缩基础1 1数
19、据压缩条件数据压缩条件信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:1 1)数据冗余度)数据冗余度2 2)人类不敏感因素)人类不敏感因素3 3)信息传输与存储)信息传输与存储 302.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余冗余是指信息所具有的各种性质中多余的无用空间冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。,其多余的程度称为冗余度。 信息量、数据量和冗余量之间的关系如下:信息量、数据量和冗余量之间的关系如下:式中,式中,i i表示信息量,表示信息量,d d表示数据量,表示数据量,dudu表示冗余量表示冗余量,冗余量应在
20、数据存储和传输之前去掉。,冗余量应在数据存储和传输之前去掉。 iddu312.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余空间冗余空间冗余时间冗余时间冗余统计冗余统计冗余结构冗余结构冗余信息熵冗余信息熵冗余知识冗余等。知识冗余等。322.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余空间冗余:空间冗余:一幅图像表面上各采样点的颜色之间往往存在着空一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。间连贯性。图像数据中经常存在的一种冗余,如规则物体和规图像数据中经常存在的一种冗余,如规则物体和规则背景(像素相关性强)。则背景(像素相关性强)。332.2.1音频压缩基础音频压缩基础
21、2数据冗余数据冗余时间冗余:时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和余,如相邻帧之间像素的相关性;语音的连续和渐变过程。渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,空间冗余和时间冗余,存在大量的统计特征重复,因此称为统计冗余。因此称为统计冗余。342.2.1音频压缩基础音频压缩基础2数据冗余数据冗余结构冗余:结构冗余:有些图像存在着非常强的纹理结有些图像存在着非常强的纹理结构,我们称它们在结构上存在构,我们称它们在结构上存在冗余。冗余。例如,布纹图像和草席图像。例如,布纹图像和草席图像
22、。352.2.1音频压缩基础音频压缩基础2数据冗余数据冗余信息熵冗余:信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。据本身而反映出来的数据冗余。例如例如: :自然界的很多状态不可能正好用自然界的很多状态不可能正好用2 2的整数次幂的整数次幂来表示来表示, ,这样就会造成编码冗余。这样就会造成编码冗余。362.2.1音频压缩基础音频压缩基础2数据冗余数据冗余知识冗余:知识冗余:举例:成语、人脸的图像有固定的结构。举例:成语、人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,这类规律性的结构可由先验
23、知识和背景知识得到,我们称此类冗余为知识冗余。我们称此类冗余为知识冗余。372.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类图图2-10 2-10 数据压缩数据压缩算法分类算法分类382.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类无损压缩无损压缩(冗余压缩、熵编码)法:无损压缩法去(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件例如:压缩软件winrarwinrar应用。应用。
24、注意:无损压缩特点是压缩比小。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。于文本数据的压缩。常见的例子是磁盘压缩。392.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类有损压缩有损压缩(熵压缩)法:有损压缩减少了信息量,(熵压缩)法:有损压缩减少了信息量,而这些损失信息量是不能再恢复的,因此,有损而这些损失信息量是不能再恢复的,因此,有损压缩法是不可逆的。压缩法是不可逆的。例如:视例如:视/ /听觉等冗余,由于人的感觉对某些失真不听觉等冗余,由于人的感觉对某些
25、失真不易觉察的生理特征,决定了在某些场合可以减少易觉察的生理特征,决定了在某些场合可以减少信息量。信息量。注意:有损压缩特点是压缩比大,但不可逆。注意:有损压缩特点是压缩比大,但不可逆。402.2.2常用音频压缩标准常用音频压缩标准1 1g.711 64kb/sg.711 64kb/s脉冲编码调制(脉冲编码调制(pcmpcm)2 2g.721g.721自适应差分脉冲编码调制(自适应差分脉冲编码调制(adpcmadpcm)3 3g.722 7khzg.722 7khz声音编码器声音编码器4 4g.723 g.723 双速率语音编码器双速率语音编码器5 5g.728 16kb/sg.728 16k
26、b/s低延迟码激励线性预测编码(低延迟码激励线性预测编码(ld-celpld-celp)6 6g.729 g.729 语音编码器语音编码器7 7mpeg-1mpeg-1音频编码音频编码8 8acac音频编码音频编码9 9空间音频编码空间音频编码1010移动音频编码移动音频编码412.2.2常用音频压缩标准常用音频压缩标准1 1g.711 64kb/sg.711 64kb/s脉冲编码调制(脉冲编码调制(pcmpcm)脉冲编码调制(脉冲编码调制(pulse code modulationpulse code modulation,pcmpcm)是)是ituitu制定出来的一套语音压缩标准,主要用于
27、电制定出来的一套语音压缩标准,主要用于电话。话。 19721972年,年,ccittccitt对一个对一个64kb/s64kb/s压扩型压扩型pcmpcm编码器做编码器做了标准化,称为了标准化,称为g.711g.711。这个标准主要有两种压缩。这个标准主要有两种压缩算法,在北美和日本,使用算法,在北美和日本,使用律律pcmpcm;而世界其;而世界其他国家使用他国家使用a a律律pcmpcm。 g.711g.711在在64kb/s64kb/s速率话音质量能够达到网络等级,目速率话音质量能够达到网络等级,目前已广泛应用于各种数字通信系统中,如电缆、前已广泛应用于各种数字通信系统中,如电缆、微波、卫
28、星、光缆等。微波、卫星、光缆等。 422.2.2常用音频压缩标准常用音频压缩标准2 2g.721g.721自适应差分脉冲编码调制(自适应差分脉冲编码调制(adpcmadpcm)自适应差分脉冲编码调制(自适应差分脉冲编码调制(adaptive differential adaptive differential pulse code modulationpulse code modulation,adpcmadpcm)在)在pcmpcm的基的基础上进行改进,进一步利用了语音信号样点间的础上进行改进,进一步利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,使用了相关性,并针对语音信号的非平
29、稳特点,使用了自适应预测和自适应量化自适应预测和自适应量化 19841984年,年,ccittccitt首先对首先对32kb/s adpcm32kb/s adpcm做了标准化,做了标准化,称为称为g.721g.721。 g.721g.721于于19861986年根据两年间运行中出现的一些问题,年根据两年间运行中出现的一些问题,做了进一步修正,又重新标准化。做了进一步修正,又重新标准化。 432.2.2常用音频压缩标准常用音频压缩标准3 3g.722 7khzg.722 7khz声音编码器声音编码器19881988年,正式通过关于年,正式通过关于“用用64kb/s64kb/s或低于此编码速或低于
30、此编码速率的率的7khz7khz音频信号编码器音频信号编码器”的标准,称为的标准,称为g.722g.722。 g.722g.722的主要目标是保持的主要目标是保持64kb/s64kb/s的数据率,而音频的数据率,而音频信号的质量要明显高于信号的质量要明显高于g.711g.711的质量。的质量。 44.2.2常用音频压缩标准常用音频压缩标准4 4g.723 g.723 双速率语音编码器双速率语音编码器g.723g.723是在是在19961996年制定的一种多媒体语音编解码标年制定的一种多媒体语音编解码标准。准。 g.723g.723标准传输码率有标准传输码率有5.3kb/s5.3kb/s和和6.
31、3kb/s6.3kb/s两种,在编两种,在编程过程中可随时切换。程过程中可随时切换。 452.2.2常用音频压缩标准常用音频压缩标准5 5g.728 16kb/sg.728 16kb/s低延迟码激励线性预测编码(低延迟码激励线性预测编码(ld-ld-celpcelp)g.728g.728的工作进程是从的工作进程是从19881988年开始的,试图建立通年开始的,试图建立通用的用的16kb/s16kb/s长话质量的语音编码标准。长话质量的语音编码标准。 g.728g.728开始是按照浮点开始是按照浮点celpcelp编码算法规定的编码算法规定的 。19941994年完成了按照严格定点规定的算法。年
32、完成了按照严格定点规定的算法。462.2.2常用音频压缩标准常用音频压缩标准6 6g g.729 .729 语音编码器语音编码器在在19961996年年3 3月,月,itu-titu-t的第的第1515研究小组提出研究小组提出8kb/s8kb/s的的语音编码协议,称为语音编码协议,称为g.729g.729。 g.729g.729标准使用的算法是共轭结构的代数码本激励标准使用的算法是共轭结构的代数码本激励线性预测(线性预测(cs-acelpcs-acelp),它基于),它基于celpcelp编码模型。编码模型。 472.2.2常用音频压缩标准常用音频压缩标准7 7mpeg-1mpeg-1音频编码
33、音频编码mpeg-1mpeg-1音频编码作为音频编码作为mpegmpeg标准的一部分,对应于标准的一部分,对应于iso/iec 11172-3iso/iec 11172-3,规定了高质量音频编码方法、,规定了高质量音频编码方法、存储表示和解码方法。存储表示和解码方法。 482.2.2常用音频压缩标准常用音频压缩标准8 8acac音频编码音频编码杜比实验室在杜比实验室在19871987年第一次将数字编码技术引入到年第一次将数字编码技术引入到hdtvhdtv的开发中,即的开发中,即ac-1ac-1标准标准 。19901990年杜比实验室又推出了立体声编码标准年杜比实验室又推出了立体声编码标准ac-
34、2 ac-2 。19941994年杜比公司与日本先锋公司联合推出了最新一年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统代的杜比数码环绕声系统dolby surround audio dolby surround audio coding-3coding-3,简称为,简称为ac-3ac-3。 492.2.2常用音频压缩标准常用音频压缩标准9 9空间音频编码空间音频编码随着人类听觉研究在空间心理声学、认知心理学等学科的不随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入,出现了将人类空间方位感知参数引入音频压缩编断深入,出现了将人类空间方位感知参数引入音频压缩编码技术的研究
35、码技术的研究空间音频编码(空间音频编码(spatial audio codingspatial audio coding,sacsac)。)。 通过将空间线索(通过将空间线索(spatial cuesspatial cues)参数引入到音频压缩编码算)参数引入到音频压缩编码算法中,即所谓的参数立体声(法中,即所谓的参数立体声(parametric stereoparametric stereo,psps)技)技术,分析声道间冗余信息量,采用立体声参数提取的联合术,分析声道间冗余信息量,采用立体声参数提取的联合声道编码模式,取代传统的声道分离编码模式,可以降低声道编码模式,取代传统的声道分离编码
36、模式,可以降低近近50%50%的编码码率,使空间成为数字音频编码技术的有效的编码码率,使空间成为数字音频编码技术的有效组成部分。组成部分。 502.2.2常用音频压缩标准常用音频压缩标准1010移动音频编码移动音频编码在移动通信系统中采用混合压缩编码,可以根据需在移动通信系统中采用混合压缩编码,可以根据需要动态调整编码码率,在合成音频质量、系统空要动态调整编码码率,在合成音频质量、系统空间中取得平衡,最大限度地发挥系统的效能。间中取得平衡,最大限度地发挥系统的效能。 3gpp 3gpp 将将amr-wb+amr-wb+和和eaac+eaac+两种编码标准用于第两种编码标准用于第三代移动网络中的
37、多媒体服务。三代移动网络中的多媒体服务。 51522.2.3音频文件格式音频文件格式1 1波形格式波形格式 2 2midimidi格式格式 3 3mp3mp3压缩格式压缩格式 4 4几种流式音频格式几种流式音频格式 532.2.3音频文件格式音频文件格式1 1波形格式波形格式wavwav是是microsoft windowsmicrosoft windows本身提供的音频格式,本身提供的音频格式,用用.wav.wav作为扩展名,其文件格式称为作为扩展名,其文件格式称为波形文件格波形文件格式(式(wave file formatwave file format),),在多媒体编程接口和在多媒体编
38、程接口和数据规范数据规范1.01.0(multimedia programming interface multimedia programming interface and data specifications 1.0and data specifications 1.0)文档中有详细的描)文档中有详细的描述。述。542.2.3音频文件格式音频文件格式2 2midimidi格式格式 电子乐器数字接口电子乐器数字接口(musical instrument digital musical instrument digital interfaceinterface,midimidi)是用于在音
39、乐合成器()是用于在音乐合成器(music music synthesizerssynthesizers)、乐器()、乐器(musical instrumentsmusical instruments)和)和计算机之间交换音乐信息,播放和录制音乐的一计算机之间交换音乐信息,播放和录制音乐的一种标准协议。种标准协议。552.2.3音频文件格式音频文件格式3 3mp3mp3压缩格式压缩格式 mp3mp3全称是全称是mpeg-1 layer 3mpeg-1 layer 3音频文件音频文件,是,是mpeg-1mpeg-1标标准中的声音部分,也叫准中的声音部分,也叫mpegmpeg音频层。音频层。mpe
40、gmpeg音频层根据压缩质量和编码复杂程度划分为音频层根据压缩质量和编码复杂程度划分为三层,即三层,即layer 1layer 1、layer 2layer 2、layer 3layer 3,分别对应,分别对应mp1mp1、mp2mp2、mp3mp3这三种声音文件。这三种声音文件。562.2.3音频文件格式音频文件格式4 4几种流式音频格式几种流式音频格式现在使用最普遍的流格式类型是现在使用最普遍的流格式类型是realnetworksrealnetworks公司公司发明的支持网络流媒体技术的实时音频格式,发明的支持网络流媒体技术的实时音频格式,rara、rmarma这两个文件类型就是这两个文件
41、类型就是real mediareal media的音频格式。的音频格式。57第二章第二章 音频处理技术音频处理技术n2.3音频处理软件音频处理软件audition2.3.1功能介绍功能介绍2.3.2编辑环境编辑环境2.3.3基本操作基本操作58auditionaudition软件是软件是adobeadobe公司推出的一款完整的、应公司推出的一款完整的、应用于用于windowswindows系统的系统的pcpc上的多音轨音频工作站。上的多音轨音频工作站。该软件前身称为该软件前身称为cool editcool edit,adobeadobe公司在公司在20032003年年5 5月从月从syntri
42、lliumsyntrillium software software公司成功购买后将其更公司成功购买后将其更名为名为auditionaudition。 592.3.1功能介绍功能介绍adobe audition 3.0adobe audition 3.0是一款功能强大的、专业级的是一款功能强大的、专业级的音音乐编辑软件乐编辑软件,能高质量地完成高级混音、编辑、控,能高质量地完成高级混音、编辑、控制、合成和特效处理,允许用户编辑个性化的音频制、合成和特效处理,允许用户编辑个性化的音频文件,创建循环,引进了文件,创建循环,引进了4545个以上的个以上的dspdsp特效以及特效以及高达高达12812
43、8个音轨。个音轨。adobe auditionadobe audition拥有集成的多音轨和编辑视图、实时拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持特效、环绕支持、分析工具、恢复特性和视频支持等功能,为音乐、视频、音频和声音设计专业人员等功能,为音乐、视频、音频和声音设计专业人员提供全面集成的提供全面集成的音频编辑音频编辑和和混音混音解决方案。解决方案。adobe auditionadobe audition提供了直觉的、客户化的提供了直觉的、客户化的界面界面,允许,允许用户删减和调整窗口的大小,创建一个高效率的音用户删减和调整窗口的大小,创建一个高效率的音频工作范围。频工作范围。 602.3.2编辑环境编辑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人工智能教育培训手册
- 工作总结:提升专业能力业务水平
- 2025新疆克拉玛依市面向高校应届毕业生招聘事业编制高中教师48人笔试备考试题及答案解析
- 农学中的农业科技示范园规划设计
- 2025年天津安全工程师安全生产法事故直接原因的分析考试试题
- 2025年唐山市市直事业单位招聘277人笔试备考题库及参考答案详解一套
- 2025年事业单位笔试-江苏-江苏审计学(医疗招聘)历年参考题库含答案解析
- 2025年有色金属行业资源循环利用产业链产业链金融创新报告
- 2025四川达州宣汉县养老服务中心招聘临时工作人员10人笔试备考试题及答案解析
- 2025年医学遗传学病例诊断与咨询考核试卷答案及解析
- 医疗纠纷预防和处理条例培训课件
- 中式面点培训课件
- 医院后勤教育培训课件
- 战后日本教育改革与发展进程
- 质量缺陷闭环管理制度
- 涵洞拆除改造方案(3篇)
- 公司自动化项目管理制度
- 2025年上海市中考语文试卷真题及答案详解(精校打印版)
- 2025年上海市中考数学真题试卷及答案
- 2023年10月高等教育自学考试《13683管理学原理(中级)》试题
- 三人合伙养狗合同范本
评论
0/150
提交评论