




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 多媒体计算机的声音信息处理 第四章 多媒体计算机的声音信息处理4.1 数字化声音信息的获取 一、 声音 多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音,这就使多媒体应用程序显得丰富多彩,充满活力。 声音(Sound)是文字、图形之外表达信息的另一种有效方式。从物理学角度来认识,空气振动而被人们耳朵所感知就是声音。通常,声音用一种连续的随时间变化的波形来表示,该波形描述了空气的振动(图4.1) 图4.1 声音的波形表示 从图中可以看出,波形的最高点或最低点与基线(时间轴)之间的距离称为该波形的“振幅”。振幅表示声音的音量。波形中两个连续波峰间的距离称为“周期”,波形的“频率”是1秒钟内所出现的周期数目,单位是赫兹(Hz)。声音按其频率的不同可分为次声、可听声和超声三种。次声的频率低于20Hz,它是一种人耳听不见的声音。或听声的频率在20-20000Hz之间,这是人耳可感受的声波。超声的振动频率高于20000Hz,也是人耳听不见的声波。多媒体计算机中处理的声音信息主要是指可听声,所以也叫音频信息(Audio)。 从应用的角度来说,多媒体计算机中的声音可分为三类:一类是语言(语音),它的作用与文字信息一样,输出的语言可作为解释、说明、叙述、回答之用,输入的语言可做命令、参数或数据。第二类是音乐、音乐的播放可烘托气氛、强调应用程序的主题。第三类是效果声(Sound Efect),例如括风、下雨、打雷、爆炸等,它们在特写的场合下起到文字、语言等无法代替的作用。 多媒体计算机中发出的声音有两种来源。一是获取法,即利用声音获取硬件将指定的声音源所发出的声音转换成数字方式并经过编码后保存下来,输出时再进行解码和数模转换,还原成为原来的波形。另一种是合成法,计算机通过一种专门定义的语言去驱动一些预制的语言或音乐的合成器,借助于合成器产生的数字声音信号还原成相应的语言或音乐。合成法的优点是数据量大大减少,特别是音乐的合成技术上已很成熟,这在下面第三节进行介绍。 二、声音信息的数字化 声音信息的计算机获取过程主要是进行数字化处理,因为只有数字化以后声音信息才能像文字、图形信息那样进行存贮,检索、编辑和各种处理。声音信息的数字 的数字化过程通常如图4.2所示。 图4.2 声音信息的数字化 采样指的是以固定的时间间隔对波形的值进行抽取。如果以Xa(t)表示声音的连续波形,则采样后得到的是一个离散的序列X(n)。如果以T作为时间间隔(称为采样周期),则采样后得到的声音信号序列为: X(n)Xa(nt) n1,2,3,. 序列中的每一个信号,称为“样本”。采样后得到的样本,其数值仍然是模拟量。 采样过程最重要的参数是采样频率。采样频率越高,声音保真度越好,但要求的数据存贮量也就越大。理论研究表明,采样频率为声音信号的最高频谱分量的两倍时,即可不失真地还原了原始声音信号,若超过此采样频率,则就包含某些冗余信息;若低于此频率,则产生失真。实验表明,使用8KHz采样频率时,人们讲话所产生的语言信号的处理已可以基本满足要求了。 多媒体计算机在声音信号获取时,采样频率通常可以有三种选择,它们是;44.1KHz,22.05KHz和11.025KHz。 声音信息数字化的第二步处理是量化,即把每一个样本值X(n)从模拟量转换成为数字量,该数字量用n个二进位表示,精度是有限的。n越大,量化精度越高,反之量化精度降低。若量化过程用Q表示,量化后的样本用x(n)表示,则量化过程可表示为: x(n)QX(n) n1,2,3,. 量化误差可以定义为: e(n)x(n)-X(n) n1,2,3,.显然,不论量化精度有多高,量化过程必定会引入一定的误差,这些误差是量化时数的截尾和舍入所引起的。由于量化误差的存在,当数字化的声音还原成模拟量的波形输出时,必然会产生一定的噪声,这称为量化噪声。但是,只要选择适当的量化精度,量化噪声可以控制在人耳感觉不出的程度。 多媒体计算机中声音的量化精度一般有两种:8位和16位。前者是将样本划分为256等份,后者则分为65536等份。任意一个特定的样本值经过量化后只能是256(或65536)个不同结果中的某一个,量化精度分别为2-8或2-16。 计算机中的后有信息都是以二进制形式进行存贮、传输和处理的。经过采样和量化后所得到的数字化声音信息还必须以二进制形式并按照一定的数据格式进行表示,这个过程称为“编码”。在不进行任何信息压缩时,多媒体计算机中的每个样本值可以用8位或16位整数来表示,前者为一个字节,后者为两个字节。若需要进行信息的压缩,则编码过程要复杂得多。这在本章第二节中再进行讨论。 三、数字化声音的质量与存贮容量 决定数字化声音的质量和存贮容量的因素有三个:采样频率、量化精度和记录的声道数目。声音通道(声道)的个数表明声音获取过程中只记录一个声波(单志道)还是记录两个波形(立体声)。立体声听起来要比单声道的声音丰满,真实感更好,但需要两倍的存贮空间。一般而言,用获取方法所得到的数字化声音的信息量都很大。下面是计算音频信息文件所需存贮容量的公式(单位:字节): 存贮容量采样频率样本量化精度/8声道数目声音持续时间(秒) 例如,一段1分钟的双声道所需要的存贮容量见表4.1所示。 按照数字式激光唱盘的标准(CD-DA标准,也叫红皮书标准),其上所记录的数字化声音采样频率为44.1KHz,量化精度为16位,它具有很高的声音保真度。多媒体计算机一般都能播放CD-DA唱盘,以取得最好的效果。 表4.1 1分钟立体声所需的存贮空间 使用CD-DA声音虽然效果好,但占用存贮空间很大,且数据速率也高达88.2KB/s(单声道)或176.4KB/s(双声道),这就要求占用CD-ROM驱动器的全部能力,即播放CD-DA声音时夫法再从CD盘上读取其他数据。所以开发多媒体应用软件时,获取数字化声音所使用的采样频率和量化精度可根据实际情况进行选择。当录音技术很好时,22.05KHz采样频率、8位量化精度所获取的数字化声音,播放时可达到调幅广播的质量。若采样频率降低到11.025KHz,则可用作为语言或低频为主的声音信息。 多媒体计算机中所处理的数字化声音信息通常有多种不同的采样频率和量化精度可以选择,以适应不同应用埸合的质量要求(参见表4.2) 表4.2 几种不同的数字化声音信息4.2 声音信息的压缩编码 一、编码方法的分类 数字化声音信息的编码方法在数字通信中有多种,以下是这些方法的分类。 图4.3 编码方法分类 波形编码的做法中先对声音波形进行采样,然后再进行量化、编码。为了减少声音信息的数据量,往往还采用相应的压缩措施。多媒体计算机中的波形声音信息大多采用PCM和ADPC编码方法。 声音编码的另一种做法是参数编码,它是从声音信号中提特征参数,然后在声音播放(还原)时根据这些参数重建声音信号。这类方法实现的编码器一般叫做声码器(Vocoder),它的压缩倍率很高,但重建的声音质量很难满足高标准的要求。 二、脉冲编码调制(PCM) 脉冲编码调制简称脉码调制,它已广泛应用于数字通信系统中。由于这种编码方法简单,它不需要复杂的信号处理技术就可以实现瞬时的数据压缩与还原,且信噪比高,因此激光唱盘记录声音的红皮书标准(CD-DA)就采用这种编码方法。多媒体计算机中的声音卡在都具有PCM编码/解码的功能。 PCM编码和解码的原理见图4.4 图4.4 PCM编码解码原理 声音波形信号Xa(t)经采用门和反混迭滤波组成的采样处理后,变成一系列离散的脉冲调幅信号X(n)。为了压缩编码数据率,X(n)要进行变换。该变换实际上是一个非线性放大器,它对小信号电平放大,对大信号电平作适当的衰减。经过变换后的脉冲信号y(n)送入一个线性编码器,其量化特性是均匀分级的,但对X(n)信号则为非均匀量化。这样,每一个脉冲用一组二进制代码来表示,在CD-DA标准中则为16位代码。PCM解码过程则是上述过程的逆过程。 为了提高声音信息的信噪比,将X(n)变换为y(n)最有效的是对数变换,即 y(n)lnX(n)这就使采样脉冲X(n)在经过均匀量化后其相对量化误差都比较相近。实际使用时为了达到更好的效果,并不简单地使用对数函数,而是采用下面两种近似对数函数: (1)律压缩 (式4-1) 其中Xmax是X(n)的最大限幅值,也叫过载点。是一个常数,它往往取比较大的数值。 (2)A律压缩 (式4-2)其中Xmax含义同律,A也是一个常数。 按照CCITT橙皮书G711建议,值为255,A值为87.56。美国、日本等多采用律,欧洲和中国采用A律,国际通信中则一致采用A律。 三、DPCM和ADPCM压缩编码 为了降低采用PCM编码的数字化声音信息的数据量,一种改进的方法是差分小于X(n),因此所需要的量化电平数就可以减少,从而编码数据量得到压缩。 DPCM的编码/解码器原理框图如图4.5所示。 图4.5 PDCM的编码和解码过程 图中的预测器p(z)是一个线性预测器,它在n时刻的预测值是由其前N个样本的线性组合来得到的,其关系为: (式4-3)式中,aj 为预测系数,N为预测阶次。 DPCM的主要关系式如下: 预测误差信号 d(n)X(n)-x(n)量化后的预测误差信号 d(n)d(n)e(n) e(n)为量化误差解码后重建信号 x(n)x-(n)d(n) X(n)e(n) 可见,重建信号x(n)与原输入信号X(n)的差为预测误差信号的量化误差。很明显,如果预测误差的量化误差小于X(n)直接量化时的误差功率,那么DPCM系统就优于PCM。 在DPCM系统中,通常假设输入声音信号是平稳的,由此而设计一个固定的预测器和一个固定差值量化器。预测器预测系数的确认可以使用均方误差为极小值的准则来解决,这里不再赘述。 在实际使用中,输入声音信号远非平稳的,此时DPCM的信噪比大大下降。解决这个问题的方法是使DPCM中加入自适应的方法,使之构成自适应差分脉码调制(ADPCM)。ADPCM的方案有多种,一种是带有固定量化器的自适应预测器,一训是带有自适应量化器的固定预测器,第三种是带有自适应量化器的自适应预测器。CCITT1988年G721建议的ADPCM编码器原理如图4.6所示。 图4.6 ADPCM编码器原理 从图中可以看出,编码器的输入信号为PCM码c(n),为了电路便于数字运算,首先将非线性的PCM码转换为线性码X(n),然后与预测信号x(n)相减后得到预测误差信号d(n),d(n)经量化、编码后即产生ADPCM码C(n)输出。为了使量化器能适应各种不同统计特性的声音信号,ADPCM要依据输入信号的性质自动改变自适应速度参数来控制量化器的量阶大小,同时也控制自适应预测器的工作。自适应预测器采用6阶零点预测和两阶极点预测。即 (式4-4)其中和均为可根据输入信号性质加以自动调整的预测系数。 由于ADPCM压缩编码方案信噪比高,数据压缩倍率可达5倍,因此,多媒体计算机所获取的数字化声音信息大都采用此种压缩方法。4.3 音乐的合成-MIDI 一、什么是MIDI 多媒体计算机中,生成音乐或声响效果的途径除了数字波形声音方法之外,更常用的方法是MIDI.MIDI的全文为Musical Instrument Digital Interface,可翻译为电子乐器数字接口。 大家知道,从数字式的电子乐器出现之后,它有产品性能日趋完善,对音乐界产生了革命性的影响,也为计算机处理音乐(作曲、修改、记录、检索、播放.)创造了极为有利的条件。MIDI声音与上一节所介绍的数字化波形声音完全不同,它不是把音乐声音与上一节所介绍有数字化波形进行采样、量化和编码,而是将电子乐器键盘的弹奏过程记录下来。例如按了哪一个键,力有多大,时间有多长等,这实际上就是乐谱的一种数字式描述,这种描述称之为MIDI消息(MIDI Message)。当需要再次播放这支乐曲时,只需要从相应的MIDI文件中读出MIDI消息,生成所需要的乐器声音波形,经放大后由扬声器输出。图4.7是多媒体计算机中MIDI声音的处理过程。 与波形声音信息相比较,MIDI声音有许多优点。最重要的是它对存贮容量的需求比波形声音小得多。半小时的立体声音乐使用CD-DA格式的波形存贮时,需要300MB存贮量,而用MIDI记录时,则只要约200KB两者相差1000多倍,就是与采用ADPCM压缩编码的波形声音相比,MIDI声音的数据量也要小两个数量级以上。图4.7 多媒体计算机中MIDI声音的处理过程 另一个优点是表现在声音的配音方面。利用MIDI技术,当多媒体PC机播放波形声音文件(例如一段解说词)时,可以同时在Windows下播放用MIDI文件记录下来的音乐,这就为解说词实现了配乐,而两个波形声音文件是无法同时播放的。 与波形声音相比,MIDI声音在编辑修改方面也是十分方便灵活的。例如可任意修改曲子的速度、音调,也可改换不同的乐器等,这些在有关软件中再作介绍。 MIDI的不足之处主要是合成后输出的声音质量依赖于MIDI硬件。多媒体PC机配置的声音卡其合成器仅适于重现打击乐或一些电子乐器的声音。为了得到与手风琴、小提琴乐器真正相同的声音,还需要再添置MIDI声音混合器,或者外接一些高质量有MIDI电子乐器。 二、MIDI设备与规范 MIDI是为了把电子乐器与计算机连接起来而制定的一个规范,它在1982年就由若干电子乐器制造厂提出协议,1988年正式提交给MIDI制造厂协会,现已成为数字式音乐的一种国际标准。 MIDI规范规定,每一种MIDI装置通常由一个接收器和一个发送器组成,某些MIDI装置也许只有接收器或发送器。接收器可以接收MIDI格式的消息,并执行MIDI命令。发送器则生成符合MIDI格式的消息并向外发送。接收器与发送器可通过一种通用的异步收发器互相连接,数据传送速率为3125位/秒,每个数据字节的前后各有一起始位和停止位,因此实际有效数据传输速率为3125字节/秒。 MIDI设备有三种端口:MIDI In,MIDI Out和MIDI Thu。每一个MIDI设备至少有一个端口,可以三种都有。MIDI In(输入口)用来接收其它MIDI设备发送来的消息。MIDI Out(输出口)用来发送本设备生成的原始MIDI消息。MIDI Thru(传送口)则能向其它相连的MIDI设备传播从MIDI In端口接收到的消息。这种设计允许连接若干个MIDI设备同时工作。 MIDI规范规定,MIDI键盘共有123个键,它比标准的88键钢琴多21个低音符和19个高音符,编号为0-127。MIDI消息可以描述每个音符的信息,包括对应的键号、按键的持续时间、音量和力度(击键时键到达它最低位置的速度)。 MIDI规范还规定,MIDI接收器有16个声道(channel),它们可以同时向声音合成器传送16路不同的声音,就好象同时指挥16个演员一起进行演奏一样。MIDI消息吧指出什么音符发给哪个声道,并对各声道进行各种控制。声道的编号为1-16,它们在MIDI中的编码为 0-15,0 声道也称为基本声道。 每个声道在逻辑上对应着一个合成器,该合成器可以产生128种不同乐器的声音,不同乐器声音称为合成器的不同“程序”。为某个声道选择某种乐器就必须预先为其设定对应的程序号。但MIDI没有统一规定哪种乐器使用哪一个程序号,因此同一MIDI文件使用不同的合成器播放时可能效果不完全相同。 MIDI文件中包含了一连串的MIDI消息。每一个MIDI消息由若干个字节组成,通常第一个字节为状态字节,其后则为一个或两个数据字节,状态字节的特征是最高位为“1”,它用来指出紧随其后的数据字节的用途的含义。数据字节的特征是最高位为“0”,它们是一条MIDI消息的信息内容。例如,当演奏员按下键盘中间的一个“C”键时,MIDI键盘就会发送一个三字节组成的消息: 90 3C 40其中90是状态字节,它表示一个音符开始,且向0号声道传送。3C表示击键的位置(哪一个键)。40表示击键的速度,共分成00-FF共128种不同速度,40是中等速度。然后,当按下的键一松开,MIDI键盘立即又发出一个三字节组成的消息: 90 3C 00其中前两个字节含义与前面相同,第三个字节表示速度为0 即这个键已中止。当合成器收到第一个消息时即开始以指定乐器声音发出规定的音符声,而当收到第二个信息时合成器立即停止发声。 合成器可以以单音方式发声,也可以是复音方式(即能同时发出几个音符),因此它能演奏和声。每个声道选择什么工作模式,则需使用“选择声道模式”消息来进行控制。 三、多媒体计算机中的MIDI 多媒体PC机要求声音卡上包含一个MIDI合成器和一个MIDI输入/输出端口。声音合成器分成两类:基本型和扩展型,它们能演奏的乐器数目及复音数有所区别,参见表4.3。多媒体PC机要求至少提供一个基本型的合成器。 Windows 3.1规定,MIDI中的13-16号声道用于基本型合成器,其中旋律乐器要分配给13、14、15号声道,所有打击乐器均分配给1-9号声道。扩展型合成器则使用声道1-10,其中旋律乐器可分配给1-9号声道,打击乐器均分给10声道。表4.3 基本型合成器和扩展型合成器的性能 由于MIDI规范中对每个声道相应和逻辑合成器的乐器(128种)的编号并无标准,且不同的多媒体机器所配置和MIDI合成器的类型及数目也各不相同。为了使在一台机器上产生的MIDI文件在另一台多媒体机器上能以原来的声音的效果播放出来,Wibdows 3.1有一个实用程序“MIDI Mapper”(MIDI映射程序),它负责把MIDI消息中的声道号(称为逻辑声道 )映射为实际的物理声道号,它也为每个物理声道的乐器编号作出定义,也可以为MIDI键盘作出定义(主要针对打击乐器)。所有这些映射表操作员都可以重新修改的定义,以保证MIDI文件不经修改便可在不同系统取得相同的播放效果。创作(生成)一个MIDI文件并非一件很容易的事。首先需要为多媒体PC机配置一个MIDI键盘,然后请作曲家从键盘上逐步完成其作品的旋律部分、低音和声部分及配打击乐器等,不断地演奏、播放并编辑作品的每一部分,直到满意为止。多媒体计算机中提供有一个MIDI编辑程序,如Windows中的“Sequencer”程序,Wearnes多媒体PC机中的“MIDI Orchestrator”程序,它们可以对已有的作品(MIDI文件)进行编辑修改,例如改变曲子的速度,改变各个声道的音量大小及所使用的乐器,对声道进行变调处理。 4.4 Sound Blaster 16 声音卡 一 声卡的组成原理图4.8 声音卡的组成 声音卡用于处理音频信息,它可以把话筒、唱机、电子乐器等输入的声音信息进行模数转换、压缩处理,也可以把经过计算机处理的数字化的声音信通过还原(解压)、数模转换后用扬声器播放出来,或者用录音记录下来。多媒体计算机中所处理的数字化声音信息通常有多种不同的采样频率和量化精度可以选择,以适应不同应用埸合的质量要求。 尽管目前市场上有各种各样的声音卡,但大多都声称与新加坡创新公司(Creative)的声霸卡(Sound Blaster“声霸卡”为其注册商标)兼容。事实上Creative Sound Blaster系列声卡一直是PC机声音卡的世界标准,其销量曾经达到占全球声音卡市场70以上的份额,一度在世界声音卡市场上起着主导作用。 Creative Sound Blaster系列声卡在中国市场主要有下列几种版本: Sound Blaster2.0(8位声音卡)、Sound BlasterPro(8位声音卡)、Sound Blaster16(16位声音卡)、Sound Blaster16 With Advanced Singnal Processor(16位带高级信号处理芯片)以及用于支持不同的CD-ROM接口的Sound Blaster 16或Sound Blaster 16 with Advanced Signal Processor的同版本。主要有Sound Blaster16 Multi CD和Sound Blaster16 SCSI-2等。各种版本均各下兼容,完全符合或高于MPC LEVEL1的要求,其中SB Pro是MPC LEVEL1标准的样板卡,Sound Blaster 16达到或超过了MPC LEVEL2标准。 下面介绍SB16位声音卡。 该卡是16位声霸卡中推出时间最早而较成熟的产品,能完全达到CD激光唱片音质的立体声效果,支持多种压缩规范,具有一种CD-ROM驱动器接口(Creative)。 二、Sound Blaster16声音卡主要技术特性 1 音乐合成器:使用4个操作器的增强型FM OPL3音乐合成器;与以前的SB或Adlib FM合成器完全兼容。提供2操作器20路复音,或4操作器11路复音。 2 立体声数字语音通道:可设定16位或8位数字立体声或单声道模式;可编程设定的采样频率范围从5KHz到45KHz共228级线性变化;支持A-Law、MU-Law、CTADPCM和IMADPCM等压缩规范;中断信号可用16位或8位DMA通道;可选用滤波器进行数字录音和回放。3 具有数字/模拟混合器:混音器的声源可以是:数字声音、CD音频、MIDI信号、线路输入、话筒及PC机的喇叭;可选择输入一个声源或将几个不同声源进行混合录音。 4 具有软件音量调整功能:可控制主音量、数字语音、CD音频、来自MIDI的信号、线路输入、话筒、PC喇叭等;PC机的喇叭音量为每级6dB,共为4级;其他声源音量为每级2dB,共分为32个级别。 具有音调调节功能,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海南省三支一扶招聘考试模拟试卷及1套参考答案详解
- 2025江苏苏州工业园区教育局组织开展西安地区校园招聘的模拟试卷参考答案详解
- 2025福建漳州市诏安县财政投资评审中心招募见习人员1人模拟试卷及答案详解(典优)
- 2025广东东莞麻涌镇人力资源服务有限公司招聘7人模拟试卷及一套完整答案详解
- 2025广东深圳市罗山科技园开发运营服务有限公司高校应届毕业生招聘拟聘考前自测高频考点模拟试题有完整答案详解
- 2025江西南昌市劳动保障事务代理中心招聘劳务派遣人员6人模拟试卷附答案详解(典型题)
- 2025福建南平事业单位招聘工作人员笔试未达开考比例及核减岗位招聘数情况模拟试卷附答案详解(黄金题型)
- HO-PEG-AS-MW-3400-生命科学试剂-MCE
- 2025昆明市盘龙区面向全国引进高中教育管理人才考前自测高频考点模拟试题及一套参考答案详解
- 小学劳动安全培训内容课件
- 创伤记忆的集体性遗忘-洞察及研究
- 浙江科技大学《高等数学Ⅱ》2025-2026学年期末试卷(A卷)
- 13 唐诗五首《钱塘湖春行》课件
- (高清版)DB11∕T 2456-2025 消防安全管理人员能力评价规范
- 胎心监护及并发症处理
- 锁骨骨折术后护理
- 酒店餐饮部主管考试题库
- 产业策划投标方案(3篇)
- 眼科常见疾病及其用药
- 脑疝患者的急救及护理
- 2025年广西专业技术人员继续教育公需科目(一)答案
评论
0/150
提交评论