




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三部分声音,声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类繁多。本章将介绍声音的相关知识。,3.1声音与听觉器官,声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号,如图所示。声波具有普通波所具有的特性,如反射、折射和衍射等。,3.1声音与听觉器官,对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号,而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。,高保声音信号(high-fidelityaudio)的频率范围为20Hz20000Hz,它的带宽约为20kHz,而视频信号的带宽是6MHz。,3.1声音与听觉器官,声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz表示。,例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为几Hz到20Hz的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。,3.1声音与听觉器官,人们把频率小于20Hz的信号称为亚音信号,或称为次音信号(subsonic);频率范围为20Hz20kHz的信号称为音频(Audio)信号;虽然人的发音器官发出的声音频率大约是803400Hz,但人说话的信号频率通常为3003000Hz,人们把在这种频率范围的信号称为话音(speech)信号;高于20kHz的信号称为超音频信号,或称超声波信号。超音频信号具有很强的方向性,而且可以形成波束,在工业上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等。,3.1声音与听觉器官,人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人的听觉器官能感知的声音频率大约在2020000Hz之间,在这种频率范围里感知的声音幅度大约在0120dB之间。人的听觉器官对声音的感知还有一些重要特性,这些特性将在MPEG声音中介绍,它们在音频数据压缩中已经得到广泛的应用。,3.2声音信号的数字化,3.2.1从模拟过渡到数字数字精度高,模拟精度低。3.2.2模拟信号与数字信号话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。,3.2.3声音信号的数字化,在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling),由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。,3.2.3声音信号的数字化,我们把时间和幅度都用离散的数字表示的信号就称为数字信号。声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样;连续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。,3.2.3声音信号的数字化,声音数字化需要回答两个问题:每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少,每个声音样本的位数(bitpersample,bps)应该是多少,也就是量化精度。,3.2.4采样频率,采样频率的高低是根据奈奎斯特理论和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音。采样定律用公式表示为fs2f或者TsT/2其中f为被采样信号的最高频率。可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为fMAX,采样频率最低要选择2fMAX。例如,电话话音的信号频率约为3.4kHz,采样频率就选为8kHz。,3.2.5采样精度,样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在065536的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,3.2.5采样精度,采样精度的另一种表示方法是信号噪声比,简称为信噪比(SNR),并用下式计算:SNR10log(Vsignal)2/(Vnoise)220log(Vsignal/Vnoise)其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(dB)。例1:假设Vnoise1,采样精度为1位表示Vsignal21,它的信噪比SNR6分贝。例2:假设Vnoise1,采样精度为16位表示Vsignal216,它的信噪比SNR96分贝。,3.2.6声音质量与数据率,根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话、调幅(AM)广播、调频(FM)广播、激光唱盘(CD-Audio)和数字录音带(DAT)的声音。在这5个等级中,使用的采样频率、样本精度、通道数和数据率列于下表,3.2.6声音质量与数据率,3.3声音文件的存储格式,如同存储文本文件一样,存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多,但目前比较流行的有以.wav(waveform),.au(audio),.aiff(AudioInterchangeableFileFormat)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC上,.au主要用在Unix工作站上,.aiff和snd主要用在苹果机和美国视算科技有限公司(SGI)的工作站上。,3.3声音文件的存储格式,用.wav为扩展名的文件格式称为波形文件格式,它在多媒体编程接口和数据规范文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式。WAV格式支持许多压缩算法,支持多种音频位数、采样频率和声道,采用44.1kHz的采样频率,16位量化位数,跟CD一样,对存储空间需求太大不便于交流和传播。,3.3声音文件的存储格式,波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是FormatChunk(格式块)和SoundDataChunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。规范中的其他文件块是可选择的。,3.3声音文件的存储格式,3.4声音工具,Windows本身自带的工具-录音机,3.4声音工具,买声音卡时带的工具,3.4声音工具,网络上下载的工具,3.4声音工具,网络上下载的工具,3.4声音工具,网络上下载的工具,3.5声音质量的度量,声音质量的评价是一个很困难的问题,目前还在继续研究的课题。前面介绍了用声音信号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。声音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语音质量时,有时同时采取两种方法评估,有时以主观质量度量为主。,3.5声音质量的度量,声音客观质量的度量主要用信噪比(SNR)与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义,感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义。可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。,3.5声音质量的度量,主观度量声音质量的方法类似于电视节目中的歌手比赛,由评委对每个歌手的表现进行评分,然后求出平均值。对声音质量的度量也可以使用类似的方法,召集若干实验者,由他们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均判分法,所得的分数称为主观平均(MOS)分。,3.6乐器数字接口(MIDI),3.6.1MIDI简介乐器数字接口(MusicalInstrumentDigitalInterface,MIDI)是用于在音乐合成器(musicsynthesizers)、乐器(musicalinstruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。,3.6乐器数字接口(MIDI),3.6.1MIDI简介MIDI标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多;可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。,3.6乐器数字接口(MIDI),3.6.1MIDI简介产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是(frequencymodulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。,3.6.2FM合成声音,音乐合成器的先驱RobertMoog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初,美国斯坦福大学(StanfordUniversity)的一名叫JohnChowning的研究生发明了一种产生乐音的新方法,这种方法称为数字式频率调制合成法,简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(DAC)来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。,3.6.2FM合成声音,FM合成器生成乐音的基本原理如图所示。它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数:音调(pitch)、音量(volume)和各种波形(wave);,3.6.2FM合成声音,调制器用了6个参数:频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect);,3.6.2FM合成声音,乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为幅度调制(AM),并且作为数字式音量控制旋钮,它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线(ADSR)包络线。,3.6.2FM合成声音,在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的波形也不同。下图是YamahaOPL-III数字式FM合成器采用的波形。,3.6.2FM合成声音,各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法。,3.6.2FM合成声音,通过改变图中所示的参数,可以生成不同的乐音,例如:改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。快速改变调制波形的频率(即音调周期)可以改变颤音的特性。改变反馈量,就会改变正常的音调,产生刺耳的声音。选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。,3.6.2FM合成声音,在多媒体计算机中,声音参数和算法这些控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型。,3.6.3乐音样本合成声音,使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生,因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1kHz的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。,3.6.3乐音样本合成声音,乐音样本通常放在ROM芯片上,ROM是超大规模集成电路(VLSI)芯片。使用乐音样本合成器的原理框图如图所示。乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数,产生的声音质量比FM合成方法产生的声音质量要高。,3.6.4MIDI系统,MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI信息是以“MIDImessages”传输的,它可以被认为是告诉音乐合成器(musicsynthesizer)如何演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会出版的MIDI1.0规范对MIDI协议作了完整的说明。,3.6.4MIDI系统,MIDI数据流是单向异步的数据位流其速率为31.25kbps,每个字节为10位(1位开始位,8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器,用IN(输入),OUT(输出)和THRU(穿越)。,3.6.4MIDI系统,MIDI数据流通常由MIDI控制器产生,如乐器键盘,或者由MIDI音序器产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。,3.6.4MIDI系统,通常,MIDI数据流的接收设备是MIDI声音发生器或者MIDI声音模块,它们在MIDIIN端口接收MIDI信息,然后播放声音。下图表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能(localcontrol)对链接打开(ON)或者关闭(OFF)。,3.6.4MIDI系统,单个物理MIDI通道分成16个逻辑通道,每个逻辑通道可指定一种乐器,如图所示。在MIDI消息中,用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收。,在一个MIDI设备上的MIDIIN连接器接收到的信息可通过MIDITHRU连接器输出到另一个MIDI设备,并可以菊花链的方式连接多个MIDI设备,这样就组成了一个复杂的MIDI系统,3.6.4MIDI系统,MIDI键盘控制器对MIDI音序器来说是一个输入设备,而音序器的MIDIOUT端口连接了几个声音模块。作曲家可使用这样的系统来创作几种不同乐音组成的曲子,每次在键盘上演奏单独的曲子。这些单独曲子由音序器记录下来,然后音序器通过几个声音模块一起播放。每一曲子在不同的MIDI通道上播放,而声音模块可分别设置成接收不同的曲子。,3.6.4MIDI系统,例如,声音模块1可设置成播放钢琴声并在通道1接收信息,模块2设置成播放低音并在通道5接收信息,而模块2设置成播放鼓乐器并在通道10上接收消息等。在图中使用了多个声音模块同时分别播放不同的声音信息。这些模块也可以做在一起构成一个叫做多音色的声音模块,它同样可以起到同时接收和播放多种声音的作用。,3.6.4MIDI系统,用PC机构造的MIDI系统使用的声音模块就是这样一种单独的多音色声音模块。在这个系统中,PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。像多媒体演示程序、教育软件或者游戏等应用软件,它们把信息通过PC总线发送到MIDI接口卡。MIDI接口卡把信息转换成MIDI消息(MIDImessages),然后送到多音色声音模块同时播放出许多不同的乐音,例如钢琴声、低音和鼓声。使用安装在PC机上的高级的MIDI音序器软件,用户可把MIDI键盘控制器连接到MIDI接口卡的MIDIIN端口,也可以有相同的音乐创作功能。,3.6.4MIDI系统,使用PC机构造MIDI系统可以有不同的方案。例如,可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC(MultimediaPC)规范就要求PC添加卡上必须有这样的声音模块,称为合成器(synthesizer)。通过已有的电子波形来产生声音的合成器称为FM合成器(FMsynthesis),而通过存储的乐音样本来产生声音的合成器称为波表合成器(wavetablesynthesis)。,3.6.4MIDI系统,MPC规格需要声音卡的合成器是多音色(muti-timbral)和多音调(polyphonic)的合成器。多音色是指合成器能够同时播放几种不同乐器的声音,音色就是把一个人说话(或一种乐器)的声音与另一个人说话(或另一种乐器)的声音区分开来的音品;多音调是指合成器一次能够播放的音符(note)数。MPC规格定义了两种音乐合成器:基本合成器(Base-levelsynthesizer)和扩展合成器(Extendedsynthesizer),基本合成器和扩展合成器之间的差别如下表所示,3.6.4MIDI系统,3.6.5MIDI消息,MIDI设备使用的一系列MIDI音符,可被认为是告诉音乐合成器如何播放一小段音乐的指令。因为MIDI数据是一套音乐符号的定义,而不是实际的音乐声音,因此MIDI文件的内容被称为MIDI消息。,3.6.5MIDI消息,一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。在状态字节中,最高有效位设置成“1”,低4位用来表示这个MIDI消息是属于哪个通道,4位可表示16个可能的通道,其余3位的设置表示这个MIDI消息是什么类型的消息。MIDI消息可分成通道消息和系统消息两大类。,3.6.5MIDI消息,MIDI通道消息可分成通道声源消息携带的演奏数据;通道方式消息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 康复医疗器械行业细分领域发展动态与2025年投资策略研究报告
- 新能源汽车的合作伙伴选择试题及答案
- 物流园区仓储设施智能化物流系统设计创新与优化评估报告
- 期中试题规律题及答案
- 开展教育教学反思的必要性试题及答案
- 杀婴心理测试题及答案
- 构建能力框架的2025大学物理试题答案
- 畜牧中职面试题及答案
- 罕见病药物研发激励政策在2025年产业中的实践与探索报告
- 供应链金融在中小企业融资中的金融科技与金融服务创新报告
- 联想EAP案例分析
- 社会工作介入老年社区教育的探索
- 国开电大-工程数学(本)-工程数学第4次作业-形考答案
- 高考倒计时30天冲刺家长会课件
- 施工项目现金流预算管理培训课件
- 时行疾病(中医儿科学课件)
- 街道计生办主任先进事迹材料-巾帼弄潮显风流
- GB/T 32616-2016纺织品色牢度试验试样变色的仪器评级方法
- 部编版小学语文三年级下册第七单元整体解读《奇妙的世界》课件
- 管道支吊架培训教材课件
- 2、工程工质量保证体系框图
评论
0/150
提交评论