多媒体技术ppt好资源-第04讲数字声音基础_第1页
多媒体技术ppt好资源-第04讲数字声音基础_第2页
多媒体技术ppt好资源-第04讲数字声音基础_第3页
多媒体技术ppt好资源-第04讲数字声音基础_第4页
多媒体技术ppt好资源-第04讲数字声音基础_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、超声波超声波女性语音女性语音电话语音电话语音调幅广播调幅广播(AM)调频广播调频广播(FM)高级音响高级音响男性语音男性语音(1)人耳对不同频段的声音的敏感程度不同 如: 对低频敏感一些,3-5K最敏感。(2)不同频率有不同的听觉阈值。(3)人的听觉具有掩蔽效应 。和环境有关。同样大小声音在嘈杂环境就会听不清。数字信号处理器数字信号处理器(digital signal processor(digital signal processor,DSP) DSP) DSPDSP与通用微处理器相比,除了它们的结构不同外,其基本差别是,与通用微处理器相比,除了它们的结构不同外,其基本差别是,DSPDSP有

2、能力响应和处理采样模拟信号得到的数据流,如做乘法和累加有能力响应和处理采样模拟信号得到的数据流,如做乘法和累加求和运算。求和运算。在数字域而不在模拟域中做信号处理的主要优点是:首先,在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响;其次,表示部件功能的数学运算不是物理上实现的功能部件,而是;其次,表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以对数字

3、运算部件进行编程,如欲改变算法或改变某些功能,还可对数对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。字部件进行再编程。话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上度上也是连续的。在时间上“连续连续”是指在一个指定的时间范围里声是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上音信号的幅值有无穷多个,在幅度上“连续连续”是指幅度的数值有无穷是指幅度的数值有无穷多个。多个。我们把在时间和幅度上都是连续的信号称为模拟信号。我们把在时间和幅度上都是连续的信号称为模拟信号

4、。在某些特定的时刻对这种模拟信号进行测量叫做采样在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)(sampling),由这些特定时刻采样得到的信号称为离散时间信号。由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅离散幅度信号度信号。例如,假设输入电压的范围是0.0V0.7V,并假设它的取值只限定在0、0.1、0.2,0.7共

5、8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。我们把时间和幅度都用离散的数字表示的信号就称为数字信号。连续幅度的离散化通过量化连续幅度的离散化通过量化(quantization)(quantization)来实现,就是把信号的强来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化。化。声音数字化需要回答两个问题声音数字化需要回答两个问题每秒钟需要采集多少个声音样本,也就是采样频率每秒钟需要采集多少个声

6、音样本,也就是采样频率(f(fs s) )是多少,是多少,每个声音样本的位数每个声音样本的位数(bit per sample(bit per sample,bps)bps)应该是多少,也就是应该是多少,也就是量化精度。量化精度。采样频率采样频率采样频率的高低是根据采样频率的高低是根据奈奎斯特理论奈奎斯特理论(Nyquist theory)(Nyquist theory)和声音信号本和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,号最高频率的两倍,这样

7、就能把以数字表达的声音还原成原来的声音,这叫做无损数字化这叫做无损数字化(lossless digitization)(lossless digitization)。采样定律用公式表示为采样定律用公式表示为 f fs 2s 2f f 或者或者 Ts T/2Ts T/2其中其中f f为被采样信号的最高频率。为被采样信号的最高频率。你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为波组成的,一个振幅为A A、频率为频率为f f的正弦波至少需要两个采样样本表的正弦波至少需要两个采样样本表示,因此,如果一个信号中

8、的最高频率为示,因此,如果一个信号中的最高频率为 , ,采样频率最低要选择采样频率最低要选择2 2 。例如,电话话音的信号频率约为。例如,电话话音的信号频率约为3.4 kHz3.4 kHz,采样频率就选为采样频率就选为8 kHz8 kHz。样本大小是用每个声音样本的位数样本大小是用每个声音样本的位数bit/s(bit/s(即即bps)bps)表示的,它反映度量表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用声音波形幅度的精度。例如,每个声音样本用1616位位(2(2字节字节) )表示,测得的声表示,测得的声音样本值是在音样本值是在0 06553665536的范围里,它的精度就是输入信

9、号的的范围里,它的精度就是输入信号的1/655361/65536。样本。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。采样精度的另一种表示方法是信号噪声比,简称为信噪比采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-(signal-to-noise rationoise ratio,SNR)SNR),并用下式计算:并用下式计算:SNRSNR 10log (10log

10、(V Vsignalsignal) )2 2 / ( / (V Vnoisenoise) )2 2 20 log (20 log (V Vsignalsignal / / V Vnoisenoise) )其中,其中,V Vsignalsignal表示信号电压,表示信号电压,V Vnoisenoise表示噪声电压;表示噪声电压;SNRSNR的单位为分贝的单位为分贝(db)(db)例1:假设Vnoise1,采样精度为1位表示Vsignal21,它的信噪比SNR6分贝。 假设Vnoise1,采样精度为16位表示Vsignal216,它的信噪比SNR96分贝。采样精度采样精度质量质量采样频率采样频率(

11、kHz)(kHz)样本精度样本精度(bit/s)(bit/s)单道声单道声/ /立体声立体声数据率数据率(kB/s)(kB/s)( (未压缩未压缩) )频率范围频率范围电话电话* *8 88 8单道声单道声8 8 2002003 400 Hz3 400 HzAMAM11.02511.0258 8单道声单道声11.011.0507 000HzFMFM22.05022.0501616立体声立体声88.2 88.2 CDCD44.144.11616立体声立体声176.4176.4202020 000 Hz20 000 HzDATDAT48481616立体声立体声192.0192.0202020 00

12、0 Hz20 000 Hz2015 000Hz文件的扩展名文件的扩展名说明说明auauSunSun和和NeXTNeXT公司的声音文件存储格式公司的声音文件存储格式(8(8位位m m 律编码或者律编码或者1616位线性编码位线性编码) )aif(Audio Interchange)aif(Audio Interchange) AppleApple计算机上的声音文件存储格式计算机上的声音文件存储格式cmf(Creative Music cmf(Creative Music Format)Format)声霸声霸(SB)(SB)卡带的卡带的MIDIMIDI文件存储格式文件存储格式mctmctMIDIM

13、IDI文件存储格式文件存储格式mff(MIDI Files Format)mff(MIDI Files Format) MIDIMIDI文件存储格式文件存储格式mid(MIDI)mid(MIDI)WindowsWindows的的MIDIMIDI文件存储格式文件存储格式mp2mp2MPEG Layer I , IIMPEG Layer I , IImp3mp3MPEG Layer IIIMPEG Layer IIImod(Module)mod(Module)MIDIMIDI文件存储格式文件存储格式rm(RealMedia)rm(RealMedia)RealNetworksRealNetworks

14、公司的流放式声音文件格式公司的流放式声音文件格式ra(RealAudio)ra(RealAudio)RealNetworksRealNetworks公司的流放式声音文件格式公司的流放式声音文件格式rolrolAdlibAdlib声音卡文件存储格式声音卡文件存储格式snd(sound)snd(sound)AppleApple计算机上的声音文件存储格式计算机上的声音文件存储格式seqseqMIDIMIDI文件存储格式文件存储格式sngsngMIDIMIDI文件存储格式文件存储格式voc(Creative Voice)voc(Creative Voice) 声霸卡存储的声音文件存储格式声霸卡存储的声

15、音文件存储格式wavwav(Waveform)(Waveform)* *WindowsWindows采用的波形声音文件存储格式采用的波形声音文件存储格式wrkwrkCakewalk ProCakewalk Pro软件采用的软件采用的MIDIMIDI文件存储格式文件存储格式用用.wav.wav为扩展名的文件格式称为波形文件格式为扩展名的文件格式称为波形文件格式(WAVE File (WAVE File Format)Format),它在多媒体编程接口和数据规范它在多媒体编程接口和数据规范1.0(Multimedia 1.0(Multimedia Programming Interface and

16、 Data Specifications 1.0)Programming Interface and Data Specifications 1.0)文档中有文档中有详细的描述。该文档是由详细的描述。该文档是由IBMIBM和微软公司于和微软公司于19911991年年8 8月联合开发的,它月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式是一种为交换多媒体资源而开发的资源交换文件格式(Resource (Resource Interchange File FormatInterchange File Format,RIFF)RIFF)。波形文件格式支持存储各种采样频率和样本精度的声音

17、数据,并波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是文件构造块是Format Chunk(Format Chunk(格式块格式块) )和和Sound Data Chunk(Sound Data Chunk(声音数据声音数据块块) )。格式块包含有描述波形的重要参数,例如采样频率和样本精度。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。等,声音数据块则包含有实际的波形声音数

18、据。RIFFRIFF中的其他文件块中的其他文件块是可选择的。它的简化结构如图所示。是可选择的。它的简化结构如图所示。MIDI是是Musical Instrument Digital Interface的首写字母组合词,的首写字母组合词,可译成可译成“电子乐器数字接口电子乐器数字接口”。用于在音乐合成器。用于在音乐合成器( (music synthesizers) )、乐器乐器( (musical instruments) )和计算机之间交换音和计算机之间交换音乐信息的一种标准协议。从乐信息的一种标准协议。从2020世纪世纪8080年代初期开始,年代初期开始,MIDI已经逐步已经逐步被音乐家和作

19、曲家广泛接受和使用。被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标是乐器和计算机使用的标准语言,是一套指令准语言,是一套指令( (即命令的约定即命令的约定) ),它指示乐器即,它指示乐器即MIDI设备要做设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不不是声音信号,在是声音信号,在MIDI电缆上传送的不是声音,而是发给电缆上传送的不是声音,而是发给MIDI设备或设备或其它装置让它产生声音或执行某个动作的指令。其它装置让它产生声音或执行某个动作的指令。可以同时播放可以同时播放WAVE文件和文件和MIDI文件

20、来一起播放语音和音乐;文件来一起播放语音和音乐;不能同时播放两个波形文件,因为播放采样声音时要求准确的同不能同时播放两个波形文件,因为播放采样声音时要求准确的同步。步。产生产生MIDI乐音的方法很多,现在用得较多的方法有两种:乐音的方法很多,现在用得较多的方法有两种:一种是一种是( (frequency modulation,FM) )合成法合成法,另一种是乐音样本合成法,也称为另一种是乐音样本合成法,也称为波形表波形表( (Wavetable) )合成法合成法。这两种方法目前主要用来生成音乐。这两种方法目前主要用来生成音乐。2020世纪世纪8080年代初,美国斯坦福大学年代初,美国斯坦福大学

21、(Stanford University)(Stanford University)的一的一名叫名叫John ChowningJohn Chowning的研究生发明了一种产生乐音的新方法,这种方法的研究生发明了一种产生乐音的新方法,这种方法称为数字式频率调制合成法称为数字式频率调制合成法(digital frequency modulation (digital frequency modulation synthesis)synthesis),简称为简称为FMFM合成器。他把几种乐音的波形用数字来表达,合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来

22、,通过数模并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器转换器(digital to analog convertor(digital to analog convertor,DAC)DAC)来生成乐音。来生成乐音。它由它由5 5个基本模块组成:个基本模块组成:数字载波器、调制器、声数字载波器、调制器、声音包络发生器、数字运算音包络发生器、数字运算器和模数转换器。器和模数转换器。声音包络发生器用来声音包络发生器用来调制声音的电平,这个过调制声音的电平,这个过程也称为幅度调制程也称为幅度调制(amplitude modulation)(amplitude modulation

23、),并且作为数字式音量控制并且作为数字式音量控制旋钮,它的旋钮,它的4 4个参数写成个参数写成ADSRADSR,这条包络线也称为这条包络线也称为音量升降维持静音包络线音量升降维持静音包络线(Attack(Attack,decaydecay,sustainsustain,releaserelease,ADSR)ADSR)包络线。包络线。在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FMFM合成器所选用的波形也不同。下图是合成器所选用的波形也不同。下图是Yamaha OPL-IIIYamaha OPL-III数字式数字式FMFM

24、合成器采用合成器采用的波形。的波形。各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是是FMFM合成器的算法。合成器的算法。这种方法就是这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周

25、期,生成各种音阶的音符。改变播放速度,从而改变音调周期,生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择,选择44.1 kHz44.1 kHz的采样频率、的采样频率、1616位的乐音样本,这相当于位的乐音样本,这相当于CD-DACD-DA的质的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。乐音样本通常放在乐音样本通常放在ROMROM芯片上。芯片上。乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不乐音样本合成器所

26、需要的输入控制参数比较少,可控的数字音效也不多,大多数采用这种合成方法的声音设备都可以控制声音包络的多,大多数采用这种合成方法的声音设备都可以控制声音包络的ADSRADSR参数,产生的声音质量比参数,产生的声音质量比FMFM合成方法产生的声音质量要高。合成方法产生的声音质量要高。合成器或者声音发生器的合成器或者声音发生器的多音调多音调(polyphony)(polyphony)是一次演奏多个音符是一次演奏多个音符(note)(note)的能力。大多数早期的音乐合成器是单音调的,即一次仅演奏一个的能力。大多数早期的音乐合成器是单音调的,即一次仅演奏一个音符。如果在装配有单音调合成器音符。如果在装

27、配有单音调合成器(monophonic synthesizer)(monophonic synthesizer)的键盘上同的键盘上同时按下时按下5 5个键,只能听到一个音符的声音;如果在装配有能支持个键,只能听到一个音符的声音;如果在装配有能支持4 4个音调的个音调的合成器的键盘上同时按下合成器的键盘上同时按下5 5个键,可产生个键,可产生4 4个音符的声音。许多现代的声音个音符的声音。许多现代的声音模块有模块有1616,2424或者或者3232个音符的复调音。个音符的复调音。如果一个合成器或者声音发生器能够同时产生如果一个合成器或者声音发生器能够同时产生2 2个或者个或者2 2个以上的不同个

28、以上的不同乐音,就说这个合成器或者声音发生器是乐音,就说这个合成器或者声音发生器是多音色多音色(multi-timbral)(multi-timbral)的。例的。例如,如果一个合成器能够同时演奏如,如果一个合成器能够同时演奏5 5个音调个音调(notes)(notes),就说它是多音调的就说它是多音调的(polyphonic)(polyphonic);如果一个合成器也能够同时产生钢琴声如果一个合成器也能够同时产生钢琴声(piano sound)(piano sound)和和低音低音(bass sound)(bass sound),就说它是一个多音色就说它是一个多音色(multi-timbra

29、l)(multi-timbral)合成器。合成器。上图表示的是一个简单的上图表示的是一个简单的MIDIMIDI系统,它由一个系统,它由一个MIDIMIDI键盘控制器键盘控制器和一个和一个MIDIMIDI声音模块组成。声音模块组成。许多许多MIDIMIDI键盘乐器在其内部既包含键盘控制器,又包含键盘乐器在其内部既包含键盘控制器,又包含MIDIMIDI声声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能部链接,这个链接可以通过该设备中的控制功能(local control)(local c

30、ontrol)对对链接打开链接打开(ON)(ON)或者关闭或者关闭(OFF)(OFF)。(1)波形编码基于音频数据的统计特性 目标是使重建语音波形保持原波形的形状。如脉冲编码 调制等(2)参数编码基于音频的声学参数 目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。(3)混合 编码LPC是通过分析话音波形来产生是通过分析话音波形来产生声道激励和转移函数的参声道激励和转移函数的参数数,对声音波形的编码实际就转化为对这些参数的编码,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。这就使声音的数据量大大减少。在接收端使用在接收端使用LPC分

31、析得到的参数,通过分析得到的参数,通过话音合成器重构话音合成器重构话音。话音。合成器实际上是一个合成器实际上是一个离散的随时间变化的时变线性滤波器离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。时变线性滤波器既当作预测器使用,又当作合成器使用。 线性预测编码线性预测编码 (LPC)(LPC)线性预测编码线性预测编码 (LPC)(LPC)=线性预测器是使用过去的线性预测器是使用过去的P P个样本值来预测现时刻的采样值个样本值来预测现时刻的采样值x(nx(n) ),预测值可以用过去,预测值可以用过去P P个

32、样本值的线性组合来表示:个样本值的线性组合来表示: 残差误差残差误差(residual error)(residual error)即线性预测误差为即线性预测误差为 =在给定的时间范围里,如 ,使 的平方和即 为最小 通过求解偏微分方程,可找到系数通过求解偏微分方程,可找到系数ai ai 的值。如果把的值。如果把发音器官等效成滤波器,这些系数值就可以理解成滤发音器官等效成滤波器,这些系数值就可以理解成滤波器的系数。这些参数不再是声音波形本身的值,而波器的系数。这些参数不再是声音波形本身的值,而是发音器官的激励参数。是发音器官的激励参数。 线性预测编码线性预测编码 (LPC)(LPC)GSMGS

33、M编译码器编译码器GSM是是Global System for Mobile communications的缩写,可的缩写,可译成全球数字移动通信系统。译成全球数字移动通信系统。GSM算法是算法是1992年柏林技术大学年柏林技术大学(Technical University Of Berlin)根据根据GSM协议开发的,这个协协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。议是欧洲最流行的数字蜂窝电话通信协议。GSM的输入是帧的输入是帧(frame)数据,一帧数据,一帧(20毫秒毫秒)由采样频率为由采样频率为8 kHz的带符号的的带符号的160个样本组成,每个样本为个样本组成,每个样本为13位或者位或者16位的线位的线性性PCM(linear PCM)码。码。GSM编码器可把一帧编码器可把一帧(16016位位)的数据压缩成的数据压缩成260位的位的GSM帧,帧,压缩后的数据率为压缩后的数据率为1625字节,相当于字节,相当于13 kb/s。由于由于260位不是位不是8位的整数倍,因此编码器输出的位的整数倍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论