《音频技术》PPT课件.ppt

上传人：x*** IP属地：四川上传时间：2020-09-15 格式：PPT 页数：95 大小：1003.05KB 积分：0 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

《音频技术》PPT课件.ppt.ppt 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第 5 章音频技术,音频也是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的，声音不仅与时间和空间有关，还与强度、方向等很多因素有关。在计算机中创建音频时，所能模拟的声音还必须要符合人类的听觉特征和听力范围。数字音频主要分为声波、语音和音乐三类。,要模拟出符合现实世界的数字声音，我们首先得了解声音的基本特性: 包括声音的物理特性和人们在听觉方面的心理特性.以便创建出一定格式的数字声音编码，满足人们对模拟声音在采集、处理、质量等各方面的需求。,5.1 声音,5.1.1 声音的物理特征,声音是纵波。决定声波的物理特性有振幅、频率和相位。,一个声源每秒钟可产生成百上千个波，我们把每秒钟

2、波峰所发生的数目称之为信号的频率，单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝(dB)表示，分贝的幅度就是音量。,1.声音的强度,在1kHz频率的正弦波中，能被人耳察觉的最弱声压大约是2.8310-4dyn（达因）/cm2，这个最弱音已经作为国际标准的参照声。,描述声音强度的量值是采用分贝表示: 分贝是指两个相同的物理量（例A1和A0）之比，取以10为底的对数并乘以10（或20）。 N = 10lg(A1/A0) 分贝符号为“dB”。,N是被量度量的“级”。，这也被称为声压级。

3、,A1是被量度量。,A0是基准量,如果2.8310-4dyn/cm2被看作0dB 那么在特别安静的环境中，单独检测：动物的呼吸声大约20 dB，人们正常的谈话声约60dB，汽车的喇叭声约100dB，飞机起飞的声音约120 dB 120dB以上的强度可使人产生痛苦的感觉。,一般人的听力范围是 20Hz20kHz。这个频率区域称为可闻声段，大致可分为低频、中频和高频低频的频率约在250500 Hz（如鼓声）中频的频率约在10002000 Hz，高频的频率约在30004000 Hz（如哨子声）。,2.频率是指物体每秒钟振动的次数。我们听到的声音都是物体振动后会产生声波不同的振动频率将会产生

4、不同的声波。,低于20Hz和高于20kHz的频率段分别称为次声和超声。,瞬时T,3.相位是波形的变化方向，如果是多个波形组合，起始相位可以相同或不同。,在某一个瞬时T，不同波形的相位都可以是不同的。右图所示的，就是一段多波形混合而成的声音实际播放时所显示的波形。,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量。,5.1.2 声音的听觉心理特性,对于复杂的人耳听觉系统特性的研究，目前仅限于在心理声学和语言声学内。听觉心理的主观感受主要有：响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位。响度、音度、音

5、色：可以在主观上用来描述任何复杂的声音而对于多种音源场合：人的耳掩蔽效应等特性尤为重要。,1）音调：代表了声音的高低。音调与频率有关，频率越高，音调越高，反之亦然。当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对声音的频率进行调整时，也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。,2）音色：即特色的声音。声音分纯音和复音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音

6、绝大部分是复音。在复音中，最低频率的声音是“基音”，它是声音的基调。其他频率的声音称为“谐音”，也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。,3）音强：声音的强度，也被称为声音的响度，常说的“音量”也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。,等响曲线,响度表示人们所感觉到的声音能量的强弱，主要取决于声波振幅的大小，物理上声压级的值一般不等于响度级的值。,声音的感

7、知响度1sone 相当于40分贝的音调在1kHz下的响度。,响度与人耳的可闻程度有关，当超出人耳的可听频率范围时，声音的响度再大，人耳也无法察觉。但在人耳的可听频域范围内，当声音弱或强到一定程度，人耳都无法听到。,实验表明，声音的可闻阈和痛感阈是随着频率而变化的。如图所示，闻阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。,声压级可闻阈的分贝值,频率Hz,就是说，小于0dB闻阈和大于140dB痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。,所谓“等响” 就是对于1kHz以外的可听声，在同一级等响度曲线上有无数个等效的声压频率值，例如，200Hz的30dB的声

8、音和1kHz的10dB的声音在人耳听起来具有相同的响度。,高频段的响度变化与声压级增量基本一致，低频段声压级的微小变化会导致响度的较大变化。,在较低的声压级上，等响上曲线各频率声音的声压级相差很大，较高的声压级上，等响曲线较为平坦，说明各频率的声压级基本相同。,这说明：在响度级较小时，高、低频声音灵敏度降低较明显，而低频段比高频段灵敏度降低更加剧烈，一般应特别重视加强低频音量。,听觉的掩蔽效应是一个较为复杂的心理和生理现象，包括人耳的频域掩蔽效应和时域掩蔽效应。而且人耳对声音源方向的辨别能力，也与频率的高低有关。由于对于2KHZ以上的高频声音信号，人耳很难判断其方向性，因而在数字处理时，就

9、可以不必重复存贮立体声广播的高频部分。,屏蔽是指一个弱声音被另一个强声音所遮盖。当强、弱声音同时存在时，就将发生声音屏蔽现象。例如，说话声会被火车声所遮盖。当两个声音在时间和频率上很接近的时候，屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时，屏蔽效应最有效。,屏蔽,如果同时存在的是两个纯音实验表明存在两种有效的屏蔽，一种是中等强度的纯音最有效的屏蔽出现在其频率附近，另一种是低频的纯音可以有效地掩蔽高频的纯音。,如果同时存在的是噪音和纯音情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的，具有无限宽的频谱。,临界频带,当某个纯音被以它为中心频率且具有一定带宽的连续噪声所屏蔽时

10、，如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率，那么这个带宽就称为临界频带宽度。,但在有声音屏蔽的情况下，一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。,可以说明人类的听觉对声音的感知特性。表5-1列出的是在20Hz16kHz范围内，通常可分出的24个子临界频带。,人耳对同一个临界频段内频率的听觉和感知是较接近的。,5.1.3 声音的数字原理,模拟声音的信号是个连续量，由许多具有不同振幅和频率的正弦波组成。实际声音信号的计算机获取过程就是声音的数字化的处理过程。,声音的模/数转换（ADC），首先需对声波采样，用数字方式记录声音。图中横轴表示时间，纵轴

11、表示振幅，按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模/数转换器。,声音的数/模转换（DAC）即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数/模转换器。,3.1.2 模拟音频的数字化过程,数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介

12、质中，这样的文件一般称为数字声波文件。,信息论的奠基者香农（Shannon）指出：在一定条件下，用离散的序列可以完全代表一个连续函数，这是采样定理的基本内容。为实现A/D转换，需要把模拟音频信号波形进行分割，这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。,1. 采样,采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的

13、声音。,采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题，但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式，以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小。,2. 量化,以下图所示的原始模拟波形为例进行采样和量

14、化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分成0到9共10个量化等级，并将其采样的幅度值取最接近0 9之间的一个数来表示，如下图所示。图中每个正方形表示一次采样。,D/A转换器从上图得到的数值中重构原来信号时，得到下图中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。,失真在采样过程中是不可避免的，如何减少失真呢？可以直观地看出，我们可以把上图中的波形划分成更为细小的区间，即采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在下

15、图（左）中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等级。在下图（右）中，采样率和量化等级再提高了一倍，分别达到4000次/秒和40个量化等级。从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。,模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如在一定范围

16、内有错，可加以纠正。编码的形式比较多，常用的编码方式是PCM脉冲调制。脉冲编码调制（PCM）是把模拟信号变换为数字信号的一种调制方式，即把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储。,3. 编码,5.1.4 数字声音质量的主要因素,影响数字化声音质量的因素主要有三个，即采样频率，采样精度和通道个数。,1.声音的采样精度,采样精度，即采样位数或采样分辨率，指表示声波采样点幅度值的二进制数的位数。换句话说，采样位数可表示采样点的等级数，若用8bit二进制描述采样点的幅值，则可以将幅值等量分割为256个区，若用16bit二进制分割，则分为65536个区。,可

17、见，采样位数越多，可分出的幅度级别越多，则分辨率越高，失真度越小，录制和回放的声音就越真实。但是位数越多，声音质量越高，所占的空间就越大。,常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。,根据抽样理论可知，一个数字信源的信噪比大约等于采样精度乘以6分贝。 8位的数字系统其信噪比只有48分贝，16位的数字系统的信噪比可达96分贝，信噪比低会出现背景噪声以及失真。因此采样位数越多，保真度越好。,2.声音的采样速率,采样速率，即采样频率，指每秒钟采样的次数，单位为Hz（赫兹）。,奈奎斯特采样定理指出：采样频率高于信号最高频率的两倍，就可以从采样中完全恢复原始信号的波形

18、。,对于以11kHz的频率的采样系统，只能恢复的最高音频是5.5kHz。如果要把20Hz20KHz范围的模拟音频信号变换为二进制数字信号，那么脉冲采样频率至少应为40KHz，其周期为Tp=1/fp=1/40KHz=25s。,流行的采样频率主要为22.05KHz、44.1KHz、48KHz 采样速率越高，采样周期越短，单位时间内得到的数据越多，对声音的表示越精确，音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度，但高采样率的数据占有很大空间。,3.声音的通道个数,声音的采样数据还与声道数有关。单声道只有一个数据流，立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征，因此

19、，声音的播放在时间和空间性能方面都能显示更好的效果，但相应数据量将成倍增加。,5.1.5 采样数据量,要从模拟声音中获得高质量的数字音频，必须提高采样的分辨率和频率，以采集更多的信号样本。而能够进一步进行处理的首要问题，那就是大量采样数据文件的存储。采样数据的存储容量计算公式如下：,存储容量(字节)=采样频率采样精度/8声道数时间,表5-2列出了1分钟的双声道声音，采用不同采样频率和精度所需的存储容量。例如，采用44.1kHz采样频率和16位采样精度时，数字化后需要的存贮容量为：44.116/8260=10.584B,表5-2 几种数字化声音的信息,为了减少数据量，采样且量化后的数据常要进

20、行压缩。数字音频的编码必须具有压缩声音信息的能力，压缩方法自适应脉冲编码调制（ADPCM）法,ADPCM压缩编码方案的特点是：信噪比高，数据压缩倍率可达2-5倍，而不会明显失真。,语音是声音的一种，与人类的语言学有关，又与发声器官的发声范围有关，因此，对于语音的本质分析相当重要。在语言数字处理中，是以语音的基本特性为基础，主要针对的语音的成分进行相应的处理，包括语音采样、识别、模拟、合成等技术。,5.2 语音,5.2.1 语音的基本特性,语音就是人们说话的声音。在数字处理中，语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。语音以语言系统有声单位的形式出现，具有语言学区别功能。

21、,人的声带就是一个发出声音的声源，声源振动将引起空气振动而产生声波。由于声波是具有振幅、方向、频率等多种物理属性的，因此，语音声包含了声源和传播过程的自然信息。,虽然声波的振幅、波长和频率是因人而异的，但是也存在一定的自然规律。一般男性的发音周期在10ms左右，发音频率就在100Hz左右。女性的发音周期较男性短，一般为6ms左右，发音频率在166Hz左右。人类很难发出频率极高或极低的语音，所以，从语音中我们可以分辨说话人、声带变化以及环境干扰声的各项性质。,语音不仅仅是有声，它还包含了语音系统按一定方式确认的声音类别，也包含了语音系统赋予的一定功能。,也就是说，语音的内容是按一定方式组织的，

22、例如有词、句、调、语气等，其含义又是建立在一定的文化基础上的。因此，是否能理解语音的实际内涵，这与接收者对语音的认知能力有关。,5.2.2 语音处理的任务和目标,计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合成。,数字语音处理的最终目标应该满足计算机发展的需要。而未来的智能化计算机应具有能看，能听，能说，具有分析、判断、推理和思考的能力，那么语音就是人与机器之间进行交流最自然的方式。,5.2.3 语音识别,语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。而在自然的音语中，每个音素的声学特性与作为语句元素时完全不同，再加上由于自然发音时，各语音单位是连贯的，具有协同调音

23、效应，同时还具有语调、重音和抑扬顿挫等韵律方面的影响，这使得实现语音到文字符号的识别非常困难。,语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要让机器具有人的听觉功能，在人机语音通讯中“听懂”人类口述的语言。根据不同的需求，语音识别的识别内容可分为狭义的语音识别和说话人语音识别。,一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识

24、别结果。（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。,语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。,声学模型是识别

25、系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。,2语音识别的基本原理,预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题：特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等；训练在识别之前

26、进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库；模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度，判断出输入语音的语意信息。,3处理的方法： (1) 连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定；剔除噪声的带通滤波、高频预加重处理、各种变换策略；波形的自动切分(依赖于识别基元的选择方案)。,(2) 特征参数提取识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选

27、取对系统识别结果起着重要的作用。因此，必须寻找一个既能充分表达语音特征又能彼此区别的特征参数，这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。,(3）参数模板存储。在建立识别系统时，首先进行特征参数提取，然后对系统进行训练和聚类。通过训练，系统建立并存储一个该系统需识别字（或音节）的参数模板库。（4）识别判决。识别时，待识语音信号经过与训练时相同的特征参数提取后，与模式模板存储器中的模式进行匹配计算和比较，并根据一定的规则进行识别判决，最后输出识别结果。,4. 语音识别系统的类型,1按可识别的词汇量多少

28、 2按照语音的输入方式 3按发音者为特定/非特定人 4按发音者的声纹,5. 语音识别的应用,1在信息处理领域的应用（1）给计算机发送指令。（2）听写系统。（3）信息查询。（4）网上交谈。 2教育与商务应用（1）语音教学软件。（2）电话查询。（3）电子商务。 3消费电子产品应用,孤立词的模式是一种认人的识别方式，就是因人而异进行语音识别。实验结果表示，一般识别率都在95%以上。孤立词的模式识别系统的原理如图5-6所示，,实际上，人们更需要计算机能不因人而变，且能识别由大量词汇组成的连续语句。这就要求计算机语音识别系统以音素为识别单元，具有标准的语句切分规则、音调规则、拼音规则、

29、单词库、语法及语义等规则。即连续识别系统应具有如图5-7结构功能，当连续语音流输入后，首先要根据语音流中能量的峰谷、清浊、共振峰变化模式等多项特征进行词、音节和音素等识别单位的切分。,切分规则,拼音规则,单词库,语法及语义规则,音素库音变规则,音段切分,音素识别,音节识别,单词识别,语句识别,连续语音流输入,识别结果输出,接着要进行模式匹配式的音素识别，从音素库中选出几个候选音素。考虑到语音流中还包含有音变特性，为了提高音素的正确识别率，必须事先分析和归纳出各种音变规律。,然后进入音节识别阶段，计算机将利用拼音规则库对音素识别的结果来组合音节。,5.2.3 语音合成,语音

30、合成可以通过再生预存的语音信号和模拟发声两种实现途径。,再生预存的语音信号方式，就是采用了数字存储技术，预先存入的语音信号，然后将预先存入的单音或词组拼接成语音。如果预先存入语音单元足够多，合成时就可以挑选出比较合适的语音单元，然后拼接合成产生比较符合自然的语句。,模拟发声方式采用数字信号处理的方法。用周期脉冲序列作为声源，代表声带振动或噪声序列，去激励一个表征声道谐振特性的时变数字滤波器。通过调整滤波器的参数控制不同的发音，通过调整激励源脉冲序列的周期或强度去改变合成语音的音调、重音等。只要正确控制激励源和滤波器参数。就能够合成出各种语句来。,合成语音的目标应该是可懂、清晰、自然、具有表

31、现力。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解。,MIDI音乐通常被称为电子音乐或合成音乐，它也是声音的一种，但是这种声音与流行的乐器有关，例如，钢琴、提琴、长号、鼓等乐器。虽然MIDI音乐可以通过连接计算机的话筒采集而输入计算机，但是这种MIDI音乐的获取只能作为声波来处理，不能对其中的音符进行特殊的处理。,5.3 MIDI音乐,5.3.1 MIDI音乐原理,MIDI（Music Instrument Digital Interface）即音乐设备的数字化界面。实质上，它是人们可以利用多媒体计算机和电子乐器去创作、欣赏

32、和研究音乐的标准协议。,数字音乐究竟是怎么形成的呢？事实上，我们可以把很多乐器排列、基本发声规律、和音乐的各种色彩等全部列出，并用相应的数字来编号，从而形成一系列可以参照使用的代码。,可以说，数字音乐是一种音乐语言，这种语言是由事先定义好的音色、音调、音符等编号组成的。 MIDI音乐就是这样一种数字音乐，其乐谱信息称之为MIDI消息，包括电子乐器键盘的弹奏的键名、力度、时值长短等。,例如，我们定义Acoustic Piano编号为01、C3音编号为10、8分音符编号为80，那么一个原声钢琴8分音符的C3音，就可以表示为“01 10 80”一串数字。由此可见，可以用不同的音色编码、音调编码

33、和音符编码分别表示不同的乐器声、高低音和音符数。,计算机上处理MIDI音乐的基本过程,计算机中的MIDI文件通常来自于音乐创作软件或合成音乐设备。许多播放器都能播放MIDI音乐，播放时如图5-8所示，需要从相应的MIDI文件或设备中读出MIDI指令，接着由MIDI文件系统解释指令，然后通过MIDI播放器输出和转换信号，再经过声音合成器生成对应的声音波形，最后经放大后由扬声器输出。,图5-8 计算机中MIDI 音乐的处理,多媒体计算机中的MIDI与音效,多媒体PC机要求音频卡上包含： MIDI合成器、MIDI输入/输出端口和音效芯片。 MIDI合成器能演奏的多种乐器及复合音， MIDI输入/输出

34、端口可用来连接合成音乐设备，音效是指在硬件上实现了回声、混响、和声等效果。,5.3.2 MIDI的组成,MIDI由三个部分组成，它们分别是：通信协议Communication Protocol 连接器Connector 传播格式（称为标准MIDI文件）。,通信协议 Communication Protocol,MIDI通信协议是二进制形式的音乐描述语言。每个描述乐器演播动作的字都赋予一个特定的二进制代码。当要奏响一个MIDI音符时，首先要发出“音符开”消息，然后赋予该音符一个“速度”，用以决定该音符的响度。通信协议中还包括乐器演奏选择、混合和平移声音和电子乐器控制等MIDI消息。,连接器

35、Connector,MIDI 1.0规范中，使用的MIDI接头是一个5针DIN接头。实际上，也可以通过其他连接器和电缆来传送MIDI消息。,标准MIDI文件,标准MIDI文件可以仅仅是一个事件的列表，描述了一个音频卡或其他播放设备要产生某种声音的特定步骤。而且这些事件是可以编辑的。,5.3.3 MIDI音乐接口标准,最早的MIDI标准就是Roland的GS（General Standard）标准。为了有利于音乐家广泛地使用不同的合成器设备和促进MIDI文件的交流，国际MIDI制造商协会（MMA）在1991年制定了通用MIDI标准。该标准以日本Roland公司的通用合成器GS标准为基础而制订的。

36、而后又出现了YAMAHA公司推出的MIDI标准XG。,GS标准,GS（General Standard）是Roland公司创立的一种MIDI标准，此标准定义了我们最常用的128种乐器，音效和控制器的排列。,该标准具有以下五种主要特点,1.16个声部。 2.最大复音数为24或更多。 3.GS格式的乐器音色排列。（有各种不同风格的音乐所使用的乐器音色和打击乐音色） 4.鼓音色可以通过音色改变信息进行选择。 5.包含两种可以调节的效果，有混响和合唱。,GM标准（通用MIDI系统标准 Level 1）,GM（General MIDI Mode）标准是国际MIDI生产者协会（MMA）制定的，该标准以日本

37、Roland公司的通用合成器GS标准为基础。GM标准为MIDI乐器之间的互相兼容定义了一些最基本的规则。,GM声音集,GM声音集也就是预定义的乐器表。GM标准定义了最常用的128种乐器，用不同的MIDI程序号为声音进行了命名，把产生这些声音的方法留给产品开发商去解决。,XG标准,XG-MIDI（Extended General MIDI）是扩展的通用MIDI。由YAMAHA公司在1994年推出的新的音源控制规格。XG继承了GM定义的各项基本功能，同时又增加了音色库（音色数量）。在控制方面作了大量的改进，用多种控制器来控制和调节音色、速度等特性。,XG标准的定义表称为“MIDI Mapper”(

38、MIDI映射表)，所有的MIDI设备都会有相应的MIDI映射表，在计算机中也要有相应的MIDI映射表。其中有一张表里排列着MIDI设备的音色，在这张音色表中，重要的是这些乐器音色所对应的排列编号，MIDI设备与计算机只认音色的排列编号，而不分析音色的排列次序。目前的MIDI设备一般都有多个音色库，但音色库最多不会超过128个。每个音色库有128个乐器音色。,5.3.4 MIDI音乐的基本设备,MIDI音乐的基本设备包括音源、音序器、输入设备。,音源,音源是一个音色资源库，其内部包含了很多不同音色的样本波形，例如钢琴的音色样本、吉它的音色样本等等。,音源只是一个资源库，本身并不知道在什么时候该用

39、什么音色发怎样的声音。如何调用资源的任务由MIDI音序器去完成。,音源分为软音源和硬音源。,软音源实质上是一个软件，软音源必须依靠电脑芯片和内存的工作来发声，常见的有Yamaha S-YXG100,Roland VSC88等，它们必须在电脑上安装后才能使用。,硬音源是一个实际存在的设备，如图5-9所示是Roland 推出的综合音源Roland FANTOM XR。将硬音源和音序器连接以后就可以使用了。,音序器,音序器是制作音乐的处理器。用它来编辑各种音乐数据，实现同步播放等等。它把组成音乐所需的音色，节奏，音符等按照一定的序列组织起来，好让音源发声。实际上，音序器以数字的形式记录了音乐的一般要

40、素，拍子，音高，节奏，音符时值等，MIDI文件的本质内容就是音序内容。,音序器也有软/硬音序器之分。,软件音序器也是一个电脑程序，很多MIDI制作软件实际上就是音序器软件，如Cakewalk、Encore、Cubase VST等。,硬件音序器和硬件音源一样，一般体积都很小，与音源连接以后就可以控制音源发声了。硬件音序器只能靠两只手在面板上按键，显示屏也较小，修改音符参数十分复杂。,输入设备就是MIDI乐器，通过它告诉音序器需要排列哪些内容。为了符合人们原有的音乐习惯，人们制造了各种基于传统乐器形式上的MIDI乐器，如MIDI键盘，MIDI吹管，MIDI吉它，MIDI小提琴等等。虽然也可以建

41、立虚拟的键盘，钢琴，电子琴等，但是在计算机键盘上弹奏音符总有许多不便之处。,输入设备,5.3.5 MIDI音乐合成器,MIDI合成器可以将MIDI指令转化为实际的声音。利用合成器可以逼真地再现出专业乐队的实时演奏效果。,音乐合成器的类型,MIDI合成器能利用一种乐器的数字采样频率来产生声调。多媒体计算机是通过内部合成器或通过外接到计算机MIDI端口的外部合成器来播放MIDI文件的。,MIDI合成器按照波形合成方法可以分为： 1、通过频率调制FM合成 FM方式是通过硬件产生正弦信号，再经过处理产生音乐。 2、通过波形表合成。首先要将各种实际乐器的声音采样存储在ROM芯片中，当需要合成某种乐器的

42、乐音时，通过查表方式来调用这种实际乐器的声音采样。,MIDI硬件合成器,现代的合成器是集音源，音序器，MIDI键盘于一身的设备。拥有大量真实的采样音色可供演奏使用拥有自己的音序器可以录制编辑音乐，拥有MIDI接口可以与其他设备交换信息。,用户不仅可以用图表音乐和屏幕乐器来合成乐曲，同时还可以用多种MIDI混合工具来合成音乐。,如图5-10所示的是Evolution生产的49 键标准力度键盘，适合于Windows 98/NT/ME/2000/XP操作系统，该键盘带有弯音轮，可分配的推杆和调制轮，提供 USB 接口和标准的MIDI接口。,图5-10 MIDI硬件合成器,MIDI软件合成器,软

43、件合成器包括软音源、软音序器、和虚拟的MIDI设备。,例如，Timidity就是一款SF2（SoundFont 2.0版本）软件合成器，它巧妙地利用了DirectX，可以在CPU资源占用很低的情况下可以非常流畅地播放一般的MIDI乐曲。它不仅小巧、使用方便，而且自带多种效果器，音质也非常好。,5.4 音频文件的格式,在计算机中存在很多音频格式，不同格式所提供的音质相差较大，有些格式还具有丰富的附加功能。可以满足不同用户对音频质量的要求。要能够正确地选择出适合自己的音频格式文件，首先要了解不同音频格式文件的特点。下面介绍一些主流的音频文件的格式。,1. 波形格式,WAV文件又称波形文件，来源于

44、对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。,WAV声音文件是使用RIFF（Resource Interchange File Format资源交换文件）的格式描述的，它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。 Wave格式支持多种压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式，

45、但其文件尺寸较大，多用于存储简短的声音片断。,2.VOC文件 VOC文件是Creative公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据，被Windows平台和DOS平台所支持。与WAV格式类似，VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针，这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。,MIDI文件所包含的信息完全符合GS的标准，所以，不仅在电脑上可以处理和重现MID

46、I音乐，也可以在不同的乐器间传输并且互相控制。,MIDI文件储存着MIDI资料和命令，包括音色、音符、时间码、速度、调号、拍号、键号等乐谱指令，能保存多达16个通道的音乐信息。按照指令中时间码的顺序，音序器能够精确地按时间合成音乐，再现文件内部的乐谱指令所包含的音乐旋律。,3. MIDI格式,一个MIDI文件基本上分成头块和轨道块两个部分，但其中可以有多个轨道块。,在MIDI 文件中，除了基本的MIDI事件数据，还可以有其他数据。如： Sysex 事件、Meta 事件、delta-times。,MIDI 事件所谓MIDI事件，就是指当用户按下鼠标按钮、键盘或一个琴键的动作，而这个动作将激活它

47、所对应消息数据的传递，这些消息包括声音、通道和模式消息数据。,Sysex 事件 Sysex 事件中对系统高级消息进行了较详细的描述，相对于 MIDI channel 消息。,Meta 事件 Meta Events 是用来表示象 track 名称、歌词、提示点等，它并不作为 MIDI 消息被发送，但它是MIDI文件的组成部分。Meta Events 的基本形式：FF 。,delta-time事件一个delta-time是一个MIDI事件被执行后的节奏数，delta-time 之后就是MIDI事件。一个MIDI 事件先于一个delta-time。例如：MIDI 系统实时消息“停止”用 F7 01

48、 FC ，当“继续”用 F7 01 FB。假设想停止一个外部设备鼓，发送一个“停止”，接着48个 delta-time 单元后“继续”。完整的 delta-tem 事件序列如下：,00 F7 01 FC 30 F7 01 FB其中“30”就是定义在MIDI 文件中（一个）单位的 delta-time数。,标准的MIDI格式的文件扩展名是mid，包括格式0和格式1。mid格式可以用任何MIDI软件进行创建、编辑和处理，但不能保存如强弱、其它符号、歌词等信息。,为了控制软件和硬件设备，可以在文件中加入许多其他的信息，并随其它信息一起保存下来。这种文件格式就是非标准的MIDI文件，由软件开发商自己

49、制定的。在这些非标准的MIDI文件里可以记录一些“.mid”文件无法记录的内容。,例如：可以记录强弱、其它符号、歌词的tri格式，可以记录歌词、表情等内容的.wrk （Cakewalk软件）格式、Band-In-a-box的“.sgu”格式。自定格式的文件可以把效果器代码和参数、音场（指器材所再生的乐队所排列的形状）和位向（播放方向）、混响度等等信息通过系统码的方式保存在文件中。但当将自定格式的文件转存为标准MIDI格式，将会忽略这些信息。,有许多播放器，如图5-11所示的WinGroove、Roland Virtual Sound Canvas和YAMAHA S-YXG Player等软音源

50、播放器，它们都支持标准的MIDI文件，并且在其中安装了软波表，从而可获得较好的效果。,5.4.3压缩格式,压缩音频文件是将音频文件按一定的方式压缩而成的文件，它可降低原有文件的存储空间，更加便于存储和传递。,mp3,MP3 即MPEG1 Layer 3 （Moving Picture Experts Group, Audio Layer III），是Fraunhofer-IIS研究所的研究成果。由于使用了 MPEG1 Audio Layer 3 技术，可将音频文件以1:10至 1:12 的压缩率进行压缩。这种技术主要是利用了知觉音频编码技术，削减了音乐中人耳所听不到的成分，尽可能保持原有的音

51、质。,MP3文件的特点是文件存储空间和音质损坏都较小。每分钟MP3格式的音乐文件大约占有1MB左右，便于存储和网上传播。标准的MP3压缩比是10：1，也可以不同的比率进行压缩。压缩得越多，声音质量下降也将越多。,表5-3 MPEG1 Audio音频文件压缩比率和播放媒体最低位率,MP3（Layer 3）编码是MPEG1 Audio音频压缩标准之一。,mp3PRO,随着网络上收听声音和收看视频的需求不断增加，网络流媒体Real和Windows Media格式传播的媒体质量不断提高，特别是Microsoft推出的WMA格式可使相同内容的MP3文件缩小至原来的一半大小，极大地冲击着MP3格式在流行

52、应用中的地位。,图5-12 Thomson mp3PRO播放器,mp3PRO的特点是降低了压缩比，并可以在64KB/s速率下最大限度地保持压缩前的音质。音乐文件大小只有原MP3文件的12。同时，MP3Pro实现了高低版本的完全兼容，所以它的文件类型也是mp3。高版本的MP3Pro播放器也可以播放低版本的MP3文件，低版本的播放器也可以播放高版本的MP3Pro文件，但只能播放出mp3的音质。,5.4.4 Real Media格式,Real Media是网络流媒体文件格式。其中包含RA、RMA这两个音频文件类型是由Real Networks公司推出的，特点是可以在低达28.8kbps的带宽下提供足

53、够好的音质。,较成功的Real Media播放器是Real One Player，其界面如图所示。可以获得许多服务，包括录制音频、播放CD或音频文件、管理文件、刻录CD，并具有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。,在网络传输过程中，流媒体是被分割处理的。首先要将原来的音频分割成多个带有顺序标记的小数据包，经过网络的实时传递后，在接收处将重新按顺序组织这些数据包以提供播放。,Windows Media,Microsoft推出的Windows Media，也是一种网络流媒体技术。 Windows Media包含了Windows Media Audio & Video 编码和解码器

54、、可选集成数字权限管理系统和文件容器。其特点是高质量、高安全性、最全面的数字媒体格式。可用于 PC、机顶盒和便携式设备上的流式处理和下载并播放等应用程序。,Windows Media使用高级的系统格式文件容器，支持高达1700万TB的文件大小。在一个文件中可存储音频、多比特率视频、元数据（如文件的标题和作者）以及索引和脚本命令。为了确保内容与兼容的播放机相关联，提供了多种不同的文件扩展名，如表5-4所示。,WMA用于包括利用 Windows Media Audio 编解码器压缩的音频的文件，WMV用于同时包括利用 Windows Media Audio 和 Windows Media Vi

55、deo 编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该存储在文件中，应使用ASF扩展名。,表5-4 Windows Media 支持的文件扩展名,常见音频格式的小结,WAV wav Microsoft 可通过增加驱动程序而支持各种各样的编码技术。不适于传播和用作聆听。支持的编码技术大部分只能在Windows平台下使用。音频原始素材保存。 mp3(MPEG 音频) mp3 （包括mp2 mp1 mpa等） Fraunhofer-IIS 在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持。出现得比较早，因此音质不是很好。一般聆听和高保真聆听。,mp3PRO

56、 mp3 Fraunhofer-IIS CodingTechnologies Thomson Multimedia 在低至64kbps的比特率下提供接近CD音质的音频质量。专利费用较高，支持的软件和硬件不多。一般聆听和高保真聆听。,RealMedia ra, rma RealNetworks 在极低的比特率环境下提供可听的音频质量。不适于除网络传播之外的用途。音质不是很好。网络音频流传输。 Windows Media wma, asf Microsoft 功能齐全，使用方便。同时支持无失真、有失真、语音压缩方式。失真压缩方式下音质不高。必须在Windows平台下才能使用。音频档案级

57、别保存，一般聆听，网络音频流传输。 MIDI MID MIDI RMI XMI MIDI Association 音频数据为乐器的演奏控制，通常不带有音频采样。没有波表硬件或软件配合时播放效果不佳。与电子乐器的数据交互，乐曲创作等。 Ogg Vorbis OGG Xiph Foundation 在低至64kbps的比特率下提供接近CD音质的音频质量。开放源代码，不需要支付使用许可费用。跨平台。发展较慢。推广力度不足。一般聆听和高保真聆听。,VQF vqf tvq NTT Human Interface Laboratories 在低至96kbps的比特率下提供接近CD音质的音频质量。

58、相关软件太少。一般聆听。 Aiff aiff Apple 可通过增加驱动程序而支持各种各样的编码技术一般限于苹果电脑平台使用。苹果电脑平台下音频原始素材保存。 Au au Sun Unix和Java平台下的标准文件格式。支持的压缩技术太少且音频数据格式受文件格式本身局限。 Unix和Java平台下音频原始素材保存。,5.5 音频文件的创作,音频文件的获取可通过3种途径： 1、通过音频软件可以录音获取声音或语音。 2、通过网络或外接设备获取，例如网上下载、电视接入、CD设备或CD光盘抓轨。 3、通过现有的电子音频素材库。,诸多的音频处理软件各自具有独道之处。如cakewalk软件是专门用

59、于制作MIDI音乐的；擅长处理波形的软件有Sound Recorder 、Wave Edit、Cool Edit、Dexster等。适合在网上播放、记录和保存到 MP3 文件的软件有AV VCS Gold ，在网上能够戏剧性地改变用户声音的软件代表有AV Voice Changer Diamond Edition。下面仅作个别介绍。,5.5.1 Cool Edit,Cool Edit Pro 2.0的功能特点,Cool Edit Pro 2.0软件提供32-bit高精度音频处理，支持 SMPTE/MTC Master、视频、CD、MIDI、等设备。支持US-428硬件控制器。能方便地抓取CD音轨，也能抽取并编辑视频文件中的音频。,Cool Edit Pro 2.0为每一轨提供了实时效果器、实时均衡处理器。提供超过 40 种音频效果器。,该软件支持单轨或多轨编辑模式，编辑时可互相切换。同时具有强大的音频编辑功能，支持可选的插件、崩溃恢复、自动静音检测和删除、自动节拍查找、录制等。可以创建音调、歌曲、声音、弦乐、颤音、噪音。并在单轨和多轨编辑模式下，分别提供了不同的编辑功能。软件还提供了音频分析器和相位分析器。,Cool Edit的界面,图5-14 Cool Edit的默认界面,Cool Edit主菜单,

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《音频技术》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《音频技术》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档