多媒体课程讲学 (5)_第1页
多媒体课程讲学 (5)_第2页
多媒体课程讲学 (5)_第3页
多媒体课程讲学 (5)_第4页
多媒体课程讲学 (5)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学习目标:学习目标: 了解声音信号的特点,掌握声音质量的度量方法。了解声音信号的特点,掌握声音质量的度量方法。 掌握声音信号的数字化方法。掌握声音信号的数字化方法。 了解声音编码了解声音编码GSM、MP3、LPC等基本原理与方法。等基本原理与方法。 了解声音合成与了解声音合成与MIDI系统。系统。 掌握掌握Cool Edit编辑制作方法。编辑制作方法。 掌握声音文件的存储与编辑。掌握声音文件的存储与编辑。 声音声音是由物体振动引发的一种是由物体振动引发的一种物理现象。例如,讲话时声带的振物理现象。例如,讲话时声带的振动、小提琴弦的振动、扬声器纸盆动、小提琴弦的振动、扬声器纸盆的振动都会造成空气

2、的振动,这种的振动都会造成空气的振动,这种振动会不断地向四周传播,当被人振动会不断地向四周传播,当被人耳接收时,我们就听到了声音。耳接收时,我们就听到了声音。声音声音是是振动波振动波,具有振幅、周期和频率。,具有振幅、周期和频率。声音是随时间连续变化的声音是随时间连续变化的物理量物理量。声音依靠介质的振动进行传播。声。声音依靠介质的振动进行传播。声源就是振动源。源就是振动源。声波声波 机械振动或气流扰动引起周围弹性媒质发生波动而产生机械振动或气流扰动引起周围弹性媒质发生波动而产生声波声波。声源声源 产生声波的物体产生声波的物体 ( (如人声带、乐器如人声带、乐器) )。声场声场 声波所及的空间

3、范围。声波所及的空间范围。声音表现形式有三类声音表现形式有三类: 语音语音 指具有语言内涵和人类约定的特殊媒体;指具有语言内涵和人类约定的特殊媒体; 音乐音乐 是规范的符号化了的声音;是规范的符号化了的声音; 音响音响 指其他自然声音,如动物叫声、机器轰鸣声、风雨雷电声等。指其他自然声音,如动物叫声、机器轰鸣声、风雨雷电声等。q 语音语音:人的说话声不仅是一种波形,:人的说话声不仅是一种波形, 而且还通过语气、而且还通过语气、语速、语调携带着比文本更加丰富的信息。这些信息语速、语调携带着比文本更加丰富的信息。这些信息往往可以通过特殊的软件进行抽取。往往可以通过特殊的软件进行抽取。q 波形声音波

4、形声音:实际上已经包含了所有声音形式,这是因:实际上已经包含了所有声音形式,这是因为计算机可以将任何声音信号通过采样、量化数字化,为计算机可以将任何声音信号通过采样、量化数字化,在必要的时候,还可以准确地将其恢复。在必要的时候,还可以准确地将其恢复。q 音乐音乐:音乐是一种符号化了的声音,这种符号就是乐:音乐是一种符号化了的声音,这种符号就是乐谱,乐谱则是转变为符号媒体形式的声音。谱,乐谱则是转变为符号媒体形式的声音。 声音物理特性:声音物理特性: 频率、周期、声压、声强、动态范围、频谱频率、周期、声压、声强、动态范围、频谱 声音心理特性:声音心理特性: 音调、响度、音色、掩蔽效应、方位感、空

5、音调、响度、音色、掩蔽效应、方位感、空间感、阈、分贝、间感、阈、分贝、 信噪比信噪比 声音的音质:声音的音质: 频带宽度、信噪比、数据量频带宽度、信噪比、数据量1.声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为称为模拟音频信号模拟音频信号。在任一时刻在任一时刻t ,声波可以分解成一系列正弦波的线性叠加。,声波可以分解成一系列正弦波的线性叠加。An 是是振幅振幅,表示声音的,表示声音的强弱强弱是声波的是声波的基频基频,表示声音音调的,表示声音音调的高低高低n 是是n次谐波的次谐波的初相位初相位n是是的的n次次谐波分量谐

6、波分量,或称为,或称为泛音泛音周期周期/频率频率/带宽带宽 两个相邻波之间的时间长度为两个相邻波之间的时间长度为周期周期T ,单位为秒;单位为秒; 每秒钟声源振动的次数称为每秒钟声源振动的次数称为频率频率f,单位,单位Hz; f = 1 / T 描述组成复合信号的频率范围,称为描述组成复合信号的频率范围,称为带宽带宽。 t振幅周期声音频带示意图人对声音的感觉是有限的,即只在一个频带范围内有效。人对声音的感觉是有限的,即只在一个频带范围内有效。高于高于20kHz20kHz频率的声音人耳听不到。频率的声音人耳听不到。有的音响产品工作频率上限为有的音响产品工作频率上限为50kHz50kHz,调音台的

7、最高工作频率设,调音台的最高工作频率设计到计到100kHz100kHz。 声波的频率范围声波的频率范围在自然界中 人耳接收的音域: 2020,000Hz 次声波(大象): 20Hz 超声波(海豚): 20,000Hz日常生活中的不同声源频率范围日常生活中的不同声源频率范围 男男 声声: 100 9,000Hz 女女 声声: 150 10,000Hz 电话声电话声: 200 3,400Hz 收音机收音机AMAM调幅广播声调幅广播声: : 50 7,000Hz 收音机收音机FMFM调频广播声调频广播声: : 20 15,000Hz 专业级音响放大器声专业级音响放大器声: : 10 40,000Hz

8、声压和声强声压和声强声压声压 P P 声波在空气传播造成空气中的气压发生变化而产生的压声波在空气传播造成空气中的气压发生变化而产生的压强,被称为强,被称为声压声压,记作,记作P P。单位是帕斯卡(。单位是帕斯卡(PaPa)或微巴)或微巴(barbar)。)。声强声强 I 描述声音传播所需能量的强度描述声音传播所需能量的强度(声波是由能量来维持传声波是由能量来维持传播的。如扬声器纸盆的振动是由电能转换而来)。单位时间内播的。如扬声器纸盆的振动是由电能转换而来)。单位时间内通过垂直于声波传播方向的单位面积内的声波能量为声场中某通过垂直于声波传播方向的单位面积内的声波能量为声场中某点的点的声强声强,

9、记作,记作I,单位为瓦米,单位为瓦米2 2(W Wm m2 2)。)。声强与声压最大值的平方成正比声强与声压最大值的平方成正比。在声学中,量级定义为一个量与同类基准量之比的以在声学中,量级定义为一个量与同类基准量之比的以1010为底为底对数。单位是对数。单位是dBdB。声压级声压级L Lp p 为:为: L Lp p = 20lg = 20lg P/PP/P0 0 声压基准量为声压基准量为P P0 0 = 2 = 2 10 10-4-4barbar,声压级为,声压级为0 0120dB120dB声强级声强级L LI I 为为: L LI I = 10lg = 10lg I/II/I0 0 声强的

10、基准量为声强的基准量为I I0 0 = 10= 10-12-12W/mW/m2 2 声压级声压级&声强级声强级阈阈阈 值是指临界值。可听阈 引起人耳刚能听到声音时的声压,与年龄有关。中音频时约为0.0002微巴。痛阈 使人耳膜感到疼痛的声压,超过200微巴的声压,能使人耳膜产生疼痛。自然现象自然现象: :扬声器的功率增加一倍发出的声音,人听到的声音强度扬声器的功率增加一倍发出的声音,人听到的声音强度并不是增加一倍。并不是增加一倍。在声学中用在声学中用分贝分贝来表示声压或声强的变化程度。来表示声压或声强的变化程度。人的听觉神经的刺激程度不与刺激量大小成正比,而是按刺激量人的听觉神经的刺激程度不与

11、刺激量大小成正比,而是按刺激量以以1010为底的对数增长为底的对数增长 。 分贝(dB) 动态范围指声音最大声压级和最小声压级之间的差值。指声音最大声压级和最小声压级之间的差值。每种声源的动态范围依据各自的特性有所不同。每种声源的动态范围依据各自的特性有所不同。如女声的动态范围为如女声的动态范围为252550dB 50dB 男声为男声为303050dB 50dB 交响乐队的动态范围大于交响乐队的动态范围大于100dB 100dB 声音的心理学特性声音的心理学特性 从声学心理角度分析,声音有三要素:从声学心理角度分析,声音有三要素:音调、响度音调、响度和和音色音色 它们与声波的频率、声压和频谱结

12、构对应。它们与声波的频率、声压和频谱结构对应。低低高高弱弱强强(1) (1) 音调音调 ( (高低高低) )(3) 音色音色 (特质特质)(2) 音强音强 (强弱强弱)音调音调代表声音高低,与频率有关。频率越高,音调越高,反之亦然。代表声音高低,与频率有关。频率越高,音调越高,反之亦然。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(频的对数(2020lglg)成线性关系,单位为)成线性关系,单位为美美(melmel)。基频越低,给人的)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度。

13、感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度。如果对声音的频率进行调整,其音调也会随之而变;若改变了声源的音如果对声音的频率进行调整,其音调也会随之而变;若改变了声源的音调,声音会发生质的转变。调,声音会发生质的转变。 音调音调响度响度 也称也称音强音强,是人耳对声音强弱的感觉程度。常说的,是人耳对声音强弱的感觉程度。常说的“音量音量”也是指响度。也是指响度。响度与声波的振幅成正比,振幅越大,响度越大。响度与声波的振幅成正比,振幅越大,响度越大。唱盘、唱盘、CDCD激光盘等播放出来的声音响度是一定的,但通过控制、激光盘等播放出来的声音响度是一定的,但通过控制、调整播放设备的音量,可以改

14、变聆听时的响度。调整播放设备的音量,可以改变聆听时的响度。 响度响度 音色音色 音色是声音的特色,又称音色是声音的特色,又称音品音品。通常说法是:声音的。通常说法是:声音的音调和响度以外的音质差异叫做音色。音调和响度以外的音质差异叫做音色。 影响音色主要因素是复音。影响音色主要因素是复音。“复音复音”是指不同频率和是指不同频率和不同振幅的混合声音,自然声中大部分是复音。不同振幅的混合声音,自然声中大部分是复音。 在复音中,最低频率的声音是在复音中,最低频率的声音是“基音基音”(声音的基(声音的基调),其他频率的声音称为调),其他频率的声音称为“谐音谐音”(也叫泛音)。(也叫泛音)。基音和谐音是

15、构成声音音色的重要因素。基音和谐音是构成声音音色的重要因素。 人是根据音色来辨别声源种类的。人是根据音色来辨别声源种类的。音色(续)音色(续)高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。与诸多其他因素有关,如听音条件等。音色是一个主观量,常用音色是一个主观量,常用柔和、刺耳、饱满柔和、刺耳、饱满词描述。词描述。 声音的质量声音的质量简称音质,与频率范围成正比,频率范围越宽音质越好。声音具有连续性和过程性,数据前后相关,并具有实时性。 声音的连续时基性声音的连续时基性掩蔽效应掩蔽效应 称听不到的声音

16、为被掩蔽声,而起掩蔽作用的声音为称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。掩蔽声。 掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。曲线的最小可听阈抬高。 掩蔽效应的一般规律是强音压低音、低频率声音压高掩蔽效应的一般规律是强音压低音、低频率声音压高频率。频率。 利用掩蔽效应可以用有用信号去掩蔽无用的声信号,利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。只需要把无用声音的声压级降低到掩蔽阈以下即可。 在数字音频处理中,还可以利用掩蔽效应去掉人耳听在数字音频处理中,还可以利用

17、掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。不到的那部分信号进行声音数据的压缩。 方位感方位感 人凭借双耳在一定声学环境内能对声源定位,这种能力来人凭借双耳在一定声学环境内能对声源定位,这种能力来自于声源发出声波到达双耳的强度差、时间差等因素。自于声源发出声波到达双耳的强度差、时间差等因素。 声源到达听者耳朵的声音有两个,一个声音直接到达,而声源到达听者耳朵的声音有两个,一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声直达声,而后者为,而后者为绕射声绕射声。 若有两个声源,增大其中一个声源的强度,由于该声音

18、源若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位置向强度较产生声压级差。使听者感受的声源(声像)位置向强度较大的声源方向移,使人感受到声音的大的声源方向移,使人感受到声音的立体感立体感。 哈斯效应(哈斯效应(Haas) 人耳听觉有延迟效应。人耳听觉有延迟效应。 哈斯通过实验证明:哈斯通过实验证明: 两个相同的声波若时差大于两个相同的声波若时差大于50ms到达人耳,人就能分辨到达人耳,人就能分辨出前导声与滞后声的方位(即可以听到清晰的回声);出前导声与滞

19、后声的方位(即可以听到清晰的回声); 若时差在若时差在35ms50ms之间,人耳可以感受滞后声源的存之间,人耳可以感受滞后声源的存在,但其所辩别的方位仍是前导声源的方位。在,但其所辩别的方位仍是前导声源的方位。 若时差在若时差在5ms 35ms以内,人耳就无法区分两个声源,以内,人耳就无法区分两个声源,给人以方位听感的只是前导声,似乎不存在滞后声援。给人以方位听感的只是前导声,似乎不存在滞后声援。空间感空间感 一个声源发出的声音同时向各个方向散开,其发散的一个声源发出的声音同时向各个方向散开,其发散的角度取决于声源所具有的角度取决于声源所具有的指向性指向性。 由于直接和经反射到达听者的两个声音

20、途径存在差别由于直接和经反射到达听者的两个声音途径存在差别(取决于环境)而带来时间差。当时间差超过一定数(取决于环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生量时,听者会听到先后到达的两个声音,从而产生回回音音。经多次反射,造成。经多次反射,造成余声余声。即使声源已停止发声,。即使声源已停止发声,但听者仍能听到声音存在。但听者仍能听到声音存在。 回声与余音的感觉可使听者感受出房间体积大小、房回声与余音的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是间高低及内表面结构上的差异,这便是空间感空间感。 动态范围动态范围频带宽度频带宽度信噪比信

21、噪比数据量数据量动态范围越大,说明音频信号强度的相对变化范围越大,音响动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。效果越好。动态范围一般用动态范围一般用dBdB为单位来计量。为单位来计量。FM(FM(调频调频) )广播的动态范围约广播的动态范围约 60dB60dBAM(AM(调幅调幅) )广播的动态范围约广播的动态范围约 40dB40dBCD-DACD-DA的动态范围约的动态范围约 100dB100dB数字电话约数字电话约 50dB50dB动态范围动态范围音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数字音响系

22、统中,以声音信号所包含的谐波分量的频率范围来衡量字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即声音的质量,即带宽带宽。 不同质量的声音的频带对比示意图不同质量的声音的频带对比示意图 (1) 频带宽度频带宽度信噪比信噪比SNR(Signal Noise Ratio)SNR(Signal Noise Ratio)是有用信号与噪声之比。是有用信号与噪声之比。 信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。信噪比不仅是声音设备的性能指标,在声音的录制和播放时,果。信噪比不仅是声音设备的性能指标,在声音的录制和

23、播放时,也要注意环境噪声。录制时应尽可能减小环境噪音。输出时应使也要注意环境噪声。录制时应尽可能减小环境噪音。输出时应使音量适当大,以减少环境噪音对听音的影响。音量适当大,以减少环境噪音对听音的影响。一般话筒和音箱的信噪比在一般话筒和音箱的信噪比在75dB75dB以上。声卡的信噪比在以上。声卡的信噪比在858595dB95dB。信噪比信噪比 数据量音质与数据采样频率和数据位数有关:音质与数据采样频率和数据位数有关: 采样频率越低,位数越少,音质越差;采样频率越低,位数越少,音质越差; 采样频率越高,位数越多,音质越好。采样频率越高,位数越多,音质越好。超声波超声波调幅广播调幅广播(AM)调频广

24、播调频广播(FM)高级音响高级音响话音信号话音信号声音类型声音类型带宽带宽CD2020kHz调频广播FM2015kHz调幅广播AM507kHz电话语音2003.4kHznoisesignalnoisesignalVVVVSNR/log20)/()log(1022分数分数质量级别质量级别失真级别失真级别5优(excellent)无察觉4良(good)(刚)察觉但不讨厌3中(fair)(察觉)有点讨厌2差(poor)讨厌但不反感1劣(bad)极讨厌(令人反感)A/DA/D转换和转换和D/AD/A转换技术便应运而生。转换技术便应运而生。A A表示表示“AnalogAnalog”(类比、模拟类比、模拟

25、),),D D代表代表“Digital ”Digital ”(数字数字),),A/DA/D转换就是把模拟电信号转换成由转换就是把模拟电信号转换成由“0”0”和和“1”1”组成数字信号的过程。组成数字信号的过程。声音的声音的A/D与与D/A转换转换8位可编程A/D转换芯片采样原理采样原理输入模拟声音信号,按照固定的时间间隔截取该信号的振幅值,每个波形周期内截取两次,取得正、负向的振幅值,这个过程就是“采样”。振幅值即称“采样值”,用二进制数表示,形成数字音频信号。连续变化的振动波连续变化的振动波阶跃变化的离散信号阶跃变化的离散信号 采样频率采样频率在一定时间间隔内采集的样本数。采样频率,音质,数

26、据量。 f f 采样采样 = 2 f f 还原还原例例1. 1. 设一个连续信号的波形可以表示为设一个连续信号的波形可以表示为 : :设采样频率为设采样频率为21Hz21Hz,-10-10,1010内的量化间隔取为内的量化间隔取为1 1,试计算出,试计算出该信号该信号0 0到到1 1秒内的量化数据。秒内的量化数据。在在0-10-1秒内,取秒内,取2121个采样点。在个采样点。在0 0、1/201/20、2/202/20、19/2019/20、1 1秒时刻采样,将采样得到的数值取整,即得到量化数据。秒时刻采样,将采样得到的数值取整,即得到量化数据。 举例举例序号序号 采样点采样点 采样数据采样数

27、据 量化量化值值 序号序号 采样点采样点 采样数据采样数据 量化值量化值 0 0.00 9.41421 9 11 0.55 -9.37474 -9 1 0.05 -7.66754 -8 12 0.60 4.73547 5 2 0.10 1.30867 1 13 0.65 -2.56445 -3 3 0.15 1.07930 1 14 0.70 0.40759 0 4 0.20 -3.46729 -3 15 0.75 6.34915 6 5 0.25 8.93433 9 16 0.80 -9.36672 -9 9 0.45 -1.63831 -2 20 1.00 4.40090 410 0.50

28、 7.89216 8 表表 连续波形的数字化连续波形的数字化 均匀量化和非均匀量化均匀量化和非均匀量化均匀量化均匀量化 采用相等的量化间隔(采用相等的量化间隔(“等分尺等分尺”)对采样得到的信号作)对采样得到的信号作量化,也称为线性量化。量化,也称为线性量化。缺点: 增加的样本位数不能得到充分的利用。非线性量化非线性量化 大的输入信号采用大的量化间隔,小的输入信号大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。采用小的量化间隔。可以在满足精度要求的情况下用较少的位数来表示。声音数据可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。还原时,采用相同的规则。

29、 非均匀量化采用两种算法(定义采样输入信号幅度和量化输出数据之间的对应关系):律(-Law)压扩 A律(A-Law)压扩非均匀量化算法非均匀量化算法律律(-Law)压扩主要用在北美和日本等地区的数字电话通信中,压扩主要用在北美和日本等地区的数字电话通信中,按下面的公式确定量化输入和输出的关系。按下面的公式确定量化输入和输出的关系。式中:式中:x为输入信号幅度,规格化成为输入信号幅度,规格化成 -1x1,sgn(x)为)为x的极性,的极性,为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取取100 500。A律律(A-Law)压

30、扩主要用在欧洲和中国大陆等地区的数字电话通压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系信中,按下面的式子确定量化输入和输出的关系 。A律律(A-Law)举例举例:对于采样频率为对于采样频率为8kHz,样本精度为,样本精度为13位、位、14位或者位或者16位的输位的输入信号,使用入信号,使用律压扩编码或者使用律压扩编码或者使用A律压扩编码,经过律压扩编码,经过PCM编码器编码器之后每个样本需之后每个样本需8位二进制存储,输出的数据率为位二进制存储,输出的数据率为64 kb/s。这个数据就是这个数据就是CCITT推荐的推荐的G.711标准:话音频率脉冲编码

31、调制。标准:话音频率脉冲编码调制。 对模拟音频信号进行采样量化编码后,得到数字音频。数字音频的质量取决于采样频率量化位数声道数 采样频率是指一秒钟时间内采样的次数。 在计算机多媒体音频处理中,采样频率通常采用三种:11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。采样频率的高低是根据采样频率的高低是根据奈奎斯特理论奈奎斯特理论( (Nyquist theory) )和声音信号本身的最高频率决定的。奈奎斯特理论指和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这出,采样

32、频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫样就能把以数字表达的声音还原成原来的声音,这叫做做无损数字化无损数字化( (lossless digitization) )。采样定律用公式表示为采样定律用公式表示为 fs 2f 或者或者 Ts T/2其中其中f为被采样信号的最高频率。为被采样信号的最高频率。你可以这样来理解奈奎斯特理论:声音信号可以看你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为成由许许多多正弦波组成的,一个振幅为A A、频率、频率为为f f的正弦波至少需要两个采样样本表示,因此,的正弦波至少需要两个采样样本

33、表示,因此,如果一个信号中的最高频率为如果一个信号中的最高频率为fmax, ,采样频率最低要采样频率最低要选择选择2 2fmax 。例如,电话话音的信号频率约为。例如,电话话音的信号频率约为3.4 3.4 kHzkHz,采样频率就选为,采样频率就选为8 kHz8 kHz。 量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。 例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。样本大小是用每个声音样本的位数样本大小是用每个声音样本的位数bit/s

34、( (即即bps) )表表示的,它反映度量声音波形幅度的精度。例如,每个示的,它反映度量声音波形幅度的精度。例如,每个声音样本用声音样本用16位位( (2字节字节) )表示,测得的声音样本值是表示,测得的声音样本值是在在065535的范围里,它的精度就是输入信号的的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。数越少,声音的质量越低,需要的存储空间越少。量化精度的另一种表示方法是量化

35、精度的另一种表示方法是信号噪声比信号噪声比,简称为信,简称为信噪比噪比( (signal-to-noise ratio,SNR) ),并用下式计算:,并用下式计算:SNR 3 log2 (Vsignal)2 / (Vnoise)26 log2 (Vsignal / Vnoise)其中,其中,Vsignal表示信号电压,表示信号电压,Vnoise表示噪声电压;表示噪声电压;SNR的的单位为分贝单位为分贝( (db) )例1:假设Vnoise1,采样精度为1位表示Vsignal21,它的信噪比SNR6分贝。 假设Vnoise1,采样精度为16位表示Vsignal216,它的信噪比SNR96分贝。

36、声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。 记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。随着声道数的增加,所占用的存储容量也成倍增加。未经压缩的数字音频数据率(bit/s) 采样频率(Hz)量化位数 (bit)声道数音频数据存储量(Byte) 数据率(bit/s)持续时间(s) / 8例:采样率11.025KHz、量化位8位,采集1分钟, 则:音频数据率11.025(KHz)8(bit) 88.2 (Kbit/s) 音频数据量11.025(KHz)8(bit) 60(s)/8 0.66 (MByte)存储量存储量=采样频率

37、采样频率量化位数量化位数/8声道数声道数时间时间存储容量的计算,存储容量存储容量的计算,存储容量=(量化位数(量化位数采样采样频率频率声道数声道数持续时间)持续时间)/8 (Byte)CD光盘采用了双声道光盘采用了双声道16位采样,采样频率为位采样,采样频率为44.1KHz,可达专业级水平。,可达专业级水平。若某首流行歌曲的长度为若某首流行歌曲的长度为3.5分钟,则该歌曲占分钟,则该歌曲占用的存储容量为:用的存储容量为: 1644.110002(3.560)8=37044000(B) 37044000/1024/1024=35.33MB 根据声音的频带,把声音的质量分为根据声音的频带,把声音的

38、质量分为5个等级个等级质量采样频率(KHz)分辨率(b/s)单声道/立体声数据率KB/s频率范围(Hz)电话88单声道82003400AM11.0258单声道11.0507000FM22.05016立体声88.22015000CD44.116立体声176.4202000DAT4816立体声192.0202000 编码算法与音频数据压缩比编码算法与音频数据压缩比 未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压实际上,编码的作用一是记录数字数据,二是采用一定的算法来压

39、缩数据以减少存储空间和提高传输效率。缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:量之比:技术指标技术指标例例1.1.高保真立体声数字音频的量化位数为高保真立体声数字音频的量化位数为1616,试计算其数据传输,试计算其数据传输率。率。 解:高保真立体声数字音频采样频率为解:高保真立体声数字音频采样频率为44.1kHz44.1kHz,双声道,其数据,双声道,其数据传输率为传输率为 :数据传输率数据传输率 = =44.1(kHz)44.1(kHz)16(bit)16(bit)2(2(声

40、道声道)=1411.2(kbps)=1411.2(kbps) 如果采用如果采用PCMPCM编码,数字音频文件所占用的空间可用如下的公式编码,数字音频文件所占用的空间可用如下的公式计算:计算: 音频数据量(音频数据量(ByteByte)= =数据传输率数据传输率持续时间持续时间8(bit/Byte) 8(bit/Byte) 其中数据量以字节其中数据量以字节(Byte)(Byte)为单位;数据传输率以每秒比特为单位;数据传输率以每秒比特(bps)(bps)为单位;持续时间以秒为单位;持续时间以秒(s)(s)为单位。为单位。 举例举例1例例2. 2. 计算计算1 1分钟未经压缩高保真立体声数字声音文

41、件大小。分钟未经压缩高保真立体声数字声音文件大小。 解:高保真立体声数字音频采样频率为解:高保真立体声数字音频采样频率为44.1kHz44.1kHz,1616位量化,双位量化,双声道,其数据传输率为:声道,其数据传输率为: 数据传输率数据传输率 = =44.1(kHz)44.1(kHz)16(bit)16(bit)2(2(声道声道)=1411.2(kbps)=1411.2(kbps) 1 1分钟这样的声音文件的大小为分钟这样的声音文件的大小为 : 音频数据量音频数据量 = = 1411.2 1411.2(kb/skb/s)6060(s s)/8(bit/Byte)=10584kB/8(bit/

42、Byte)=10584kB未经压缩的未经压缩的4 4分钟的歌曲文件约分钟的歌曲文件约42M42M数据,数据,128M128M的的MP3MP3播放器只能播放器只能存放存放3 3首这样的歌曲。首这样的歌曲。 举例举例2 2数字音频文件格式 数字声音文件格式是数字音频在磁盘文数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有同的文件格式,而不同的数据也可以有相同的文件格式。相同的文件格式。 WAVE 格式格式 MP3 格式格式 RA 格式格式 MIDI 格式格式数字音频文件格式数字音频文件格式WAVE文件格式WAVEWAVE文件是一种通用的音频数据文件,文件扩展名为文件是一种通用的音频数据文件,文件扩展名为“WAV”WAV”,WindowsWindows系统和一般的音频卡都支持这种格式文件的生成、编辑和系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。播放。CDCD激光唱盘中包含的就是激光唱盘中包含的就是WAVEWAVE格式的波形数据。一般说来,声音格式的波形数据。一般说来,声音质量与其质量与其WAVEWAVE格式的文件大小成正比。格式的文件大小成正比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论