




文档简介
数字声音及MIDI简介 本章内容: 声音的基本概念 声音的数字化 计算机对声音的处理 计算机处理声音的硬件设备 声音的计算机存储格式 语音技术的应用。 MIDI技术 第二章 声音信号数字化 声音的基本概念 通过空气传播的一种连续的机械波。 强弱: 声压 ,音调: 频率 声音信号的两大参数 振幅 频率 分贝是声压级单位,记为d B 。分貝表示声音的強度或 响度,也就是音量。零分貝的設定,是根据听力正常的年 轻人所能听到的最小声音所得到的。1 分贝大约是人刚刚能 感觉到的声音。适宜的生活环境不应超过4 5 分贝,不应低 于1 5 分贝。 按普通人的听觉 0 2 0 分贝 很静、几乎感觉不到。 2 0 4 0 分贝安静、犹如轻声絮语。 4 0 6 0 分贝一般、普通室内谈话 6 0 7 0 分贝吵闹、有损神经 7 0 9 0 分贝很吵、神经细胞受到破坏 9 0 1 0 0 分贝 吵闹加剧、听力受损 1 0 0 1 2 0 分贝难以忍受、呆一分钟即暂时致聋。 一般的耳語大約是20分貝 超靜音冷氣機的音量是33分貝 極安靜的住宅區40分貝 一般公共場所50分貝 交談約60分貝(所以若兩耳的聽力皆超過60分 貝,交談便會產生困難,會出現說話像吵架的 情形) 交通繁忙地區85分貝 飛機場跑道120分貝。 (2)频率(音频周期) 20khz 超声波(ultrasonic) 各种音频的带宽 人的发音:80hz3.4khz 人的说话:300hz3khz 人的听觉:20hz20khz 从模拟过渡到数字 音频信号的产生与还原 模拟处理方法 音源机电转换滤波放大存储电磁(光)转换(磁带、唱盘 等)滤波放大电机转换声音 数字处理方法 音源-信号转换(电信号)-模数转换-压缩、编码-存储介质( 磁盘、光盘等)-数模转换电机转换声音 模拟域处理的特点: 速度快、受环境变化影响大、成本高。 数字域处理的特点: 容易实现、精确处理、不受时间和环境变化的影响、可编程成本低 、 可智能化。 模拟信号与数字信号 话音信号是典型的连续信号,不仅在时 间上是连续的,而且在幅度上也是连续 的。在时间上“连续”是指在一个指定的 时间范围里声音信号的幅值有无穷多个 ,在幅度上“连续”是指幅度的数值有无 穷多个。我们把在时间和幅度上都是连 续的信号称为模拟信号。 模拟信号与数字信号 我们把时间和幅度都用离散的数字表示的信号 就称为数字信号。 采样在某些特定的时刻对这种模拟信号进行 测量叫做采样(sampling),由这些特定时刻采样 得到的信号称为离散时间信号。 量化采样得到的幅值是无穷多个实数值中的 一个,因此幅度还是连续的。如果把信号幅度 取值的数目加以限定,这种由有限个数值组成 的信号就称为离散幅度信号。 声音信号数字化 声音进入计算机的第一步就是数字化,数字化实 际上就是采样和量化。 如前所述,连续时间的离散化通过采样来实现, 就是每隔相等的一小段时间采样一次,这种采 样称为均匀采样(uniform sampling); 连续幅度的离散化通过量化(quantization)来实现 ,就是把信号的强度划分成一小段一小段,如 果幅度的划分是等间隔的,就称为线性量化, 否则就称为非线性量化。 声音信号数字化 音频数字化(时间上的离散:采样; 幅度上的离散:量化) 声音信号数字化 声音数字化需要回答两个问题: 每秒钟需要采集多少个声音样本,也 就是采样频率(fs)是多少, 每个声音样本的位数(bit per sample, bps)应该是多少,也就是量化精度。 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎 斯特理论指出,采样频率不应低于声音信号最高 频率的两倍,这样就能把以数字表达的声音还原 成原来的声音,这叫做无损数字化(lossless digitization)。采样定律用公式表示为 fs =2fmax 或者 Ts =T/2 其中f max为被采样信号的最高频率。 采样频率 采样频率 可以这样来理解奈奎斯特理论:声音信 号可以看成由许许多多正弦波组成的, 一个振幅为A、频率为f的正弦波至少需 要两个采样样本表示,因此,如果一个 信号中的最高频率为 fmax ,采样频率最低 要选择2fmax 。例如,电话话音的信号频 率约为3.4 kHz,采样频率就选为8 kHz。 采样精度 样本大小是用每个声音样本的位数bit/sample 表示的,它反映度量声音波形幅度的精度。例 如,每个声音样本用16位(2字节)表示,测得的 声音样本值是在065536的范围里,它的精度 就是输入信号的1/65536。 样本位数的大小影响到声音的质量,位数越多 ,声音的质量越高,而需要的存储空间也越多 ;位数越少,声音的质量越低,需要的存储空 间越少。 采样精度 采样精度的另一种表示方法是信号噪声比,简称为信 噪比(signal-to-noise ratio,SNR),并用下式计算: SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR 的单位为分贝(db) 例1:假设Vnoise1,采样精度为1位表示Vsignal21 ,它的信噪比SNR6分贝。 例2:假设Vnoise1,采样精度为16位表示Vsignal 216,它的信噪比SNR96分贝。 声音质量与数据率 根据声音的频带,通常把声音的质量分 成5个等级,由低到高分别是电话 (telephone)、调幅(amplitude modulation, AM)广播、调频(frequency modulation, FM)广播、激光唱盘(CD-Audio)和数字录 音带(digital audio tape,DAT)的声音。在 这5个等级中,使用的采样频率、样本精 度、通道数和数据率列于表201。 声音质量与数据率 非线性量化 均匀量化:线性,按比例得量化值 非均匀量化 它们的优缺点 对数式压缩 A率压扩(P73) U率压扩(P75) 率压扩原理 率压扩原理 A率压扩原理 多媒体音频技术 音频信号的频谱分析 (P65图) 基频、取样频率的确定 取样频率过高或过低的缺点 2.3 声音文件的存储格式 音频文件的格式 如同存储文本文件一样,存储声音数据也需要有 存储格式。在因特网上和各种机器上运行的声 音文件格式很多,但目前比较流行的有以.wav (waveform),.au(audio),.aiff(Audio Interchangeable File Format)和.snd(sound)为扩 展名的文件格式。.wav格式主要用在PC上,.au 主要用在Unix工作站上,.aiff和snd主要用在苹 果机和美国视算科技有限公司(Silicon Graphics ,Inc.,SGI)的工作站上。 2.4 声音工具 声音工具(audio tools)用来录放、编辑和 分析声音文件。声音工具使用得相当 普遍,但它们的功能相差很大。下面 列出了比较常见的几种工具。 Sound record wavestudio cooledit 示例(编辑处理) 2.5 声音质量的度量 声音质量的评价是一个很困难的问题, 目前还在继续研究的课题。前面介绍了 用声音信号的带宽来衡量声音的质量, 等级由高到低依次是DAT,CD,FM, AM和数字电话。是客观质量度量,客观 标准:5个等级及参数、信噪比SNR。 另一种是主观质量度量。 2.5 主观声音质量的度量 声音客观质量的度量主要用信噪比(signal to niose ratio,SNR),详细计算可参看23。 与用SNR客观质量度量相比较,应该可以说人 的感觉(如听觉、视觉等)更具有决定意义,感 觉上的、主观上的测试应该成为评价声音质量 和图像质量不可缺少的部分。而有的学者则认 为,在语音和图像信号编码中使用主观质量度 量比使用客观质量度量更加恰当,更有意义。 可是一般来说,可靠的主观度量值也是比较难 获得的,所获得的值也是一个相对值。 2.5 声音质量的度量 主观度量声音质量的方法类似于电视节目中的 歌手比赛,由评委对每个歌手的表现进行评分 ,然后求出平均值。对声音质量的度量也可以 使用类似的方法,召集若干实验者,由他们对 声音质量的好坏进行评分,求出平均值作为对 声音质量的评价。这种方法称为主观平均判分 法,所得的分数称为主观平均(mean opinion score,MOS)分。对声音主观质量度量比较通 用的标准是5分制。 主观标准MOS(mean opinion score) 一般再现语音频率若达7kHz以上,MOS可评5分 2.乐音音质 乐音音质的优劣取决于多种因素,如声源特性(声压 、频率、频谱等)、音响器材的信号特性(如失真度 、频响、动态范围、信噪比、瞬态特性、立体声分离 度等)、声场特性(如直达声、前期反射声、混响声 、两耳间互相关系数、基准振动、吸声率等)、听觉 特性(如响度曲线、可听范围、各种听感)等。所以 ,对音响设备再现音质的评价难度较大。通常用下列 两种方法:一是使用仪器测试技术指标;二是凭主观 聆听各种音效。由于乐音音质属性复杂,主观评价的 个人色彩较浓,而现有的音响测试技术又只能从某些 侧面反映其保真度。所以,迄今为止,还没有一个能 真正定量反映乐音音质保真度的国际公认的评价标准 。但也有报道,国际电信联盟(ITU-T)近期已批准一 种客观评价音质的被称之为电子耳的新型测量方法, 可对任何音响器材的音质进行客观听音评价,也可用 于检测电话通讯语音编码系统的缺陷。 2.6 电子乐器数字接口(MIDI)系统 l MIDI是Musical Instrument Digital Interface的首写字母 组合词,可译成“电子乐器数字接口”。用于在音乐合 成器(music synthesizers)、乐器(musical instruments)和 计算机之间交换音乐信息的一种标准协议。从20世纪 80年代初期开始,MIDI已经逐步被音乐家和作曲家广 泛接受和使用。 l MIDI是乐器和计算机使用的标准语言,是一套指令(即 命令的约定),它指示乐器即MIDI设备要做什么,怎么 做,如演奏音符、加大音量、生成音响效果等。MIDI 不是声音信号,而是发给MIDI设备或其它装置让它产 生声音或执行某个动作的指令。 l 特点:文件小、易于编辑、可以与其它媒体同时播放 。 Robert Moog MIDI标准之所以受到欢迎,主要是它有 下列几个优点: 生成的文件比较小,因为MIDI文件存储的 是命令,而不是声音波形; 容易编辑,因为编辑命令比编辑声音波形要 容易得多; 可以作背景音乐,因为MIDI音乐可以和其 它的媒体,如数字电视、图形、动画、话音 等一起播放,这样可以加强演示效果。 产生MIDI乐音的方法很多,现在用得较 多的方法有两种: 频率调制(frequency modulation,FM)合 成法 乐音样本合成法,也称为波形表 (Wavetable)合成法。这两种方法目前主 要用来生成音乐。 FM合成声音 FM合成声音音乐合成器的先驱Robert Moog采用了 模拟电子器件生成了复杂的乐音。 20世纪80年代初,美国斯坦福大学的John Chowning 研究生发明了一种产生乐音的新方法, 这种方法称为数字式频率调制合成法,简称为FM合 成器。他把几种乐音的波形用数字来表达,并且用 数字计算机而不是用模拟电子器件把它们组合起来 ,通过数模转换器来生成乐音。 斯坦福大学得到了发明专利,并且把专利权授给 Yamaha公司,该公司把这种技术做在集成电路芯片 里,成了世界市场上的热门产品。FM合成法的发明 使合成音乐工业发生了一次革命。 FM合成器生成乐音的基本原理 FM合成器生由5个基本模块组成:数字载波器、调制 器、声音包络发生器、数字运算器和模数转换器。数 字载波器用了3个参数:音调(pitch)、音量(volume)和 各种波形(wave);调制器用了6个参数:频率 (frequency)、调制深度(depth)、波形的类型(type)、反 馈量(feedback)、颤音(vibrato)和音效(effect);乐器声音 除了有它自己的波形参数外,还有它自己的比较典型 的声音包络线,声音包络发生器用来调制声音的电平 ,这个过程也称为幅度调制(amplitude modulation),并 且作为数字式音量控制旋钮,它的4个参数写成ADSR ,这条包络线也称为音量升降维持静音包络线(Attack ,decay,sustain,release,ADSR)包络线。 在乐音合成器中,数字载波波形和调制波形有很多种,不 同型号的FM合成器所选用的波形也不同。图是Yamaha OPL-III数字式FM合成器采用的波形。 各种不同乐音的产生是通过组合各种波形和各种波形参数 并采用各种不同的方法实现的。用什么样的波形作为数字 载波波形、用什么样的波形作为调制波形、用什么样的波 形参数去组合才能产生所希望的乐音,这就是FM合成器 的算法。 通过改变图中所示的参数,可以生成不同的乐音,例如: 改变数字载波频率可以改变乐音的音调,改变它的幅度可以 改变它的音量。 改变波形的类型,如用正弦波、半正弦波或其它波形,会影 响基本音调的完整性。 快速改变调制波形的频率(即音调周期)可以改变颤音的特性 。 改变反馈量,就会改变正常的音调,产生刺耳的声音。 选择的算法不同,载波器和调制器的相互作用也不同,生成 的音色也不同。 在多媒体计算机中,图2-07中的13个声音参数和算法共14个 控制参数以字节的形式存储在声音卡的ROM中。播放某种乐 音时,计算机就发送一个信号,这个信号被转换成ROM的地 址,从该地址中取出的数据就是用于产生乐音的数据。FM 合成器利用这些数据产生的乐音是否真实,它的真实程度有 多高,这就取决于可用的波形源的数目、算法和波形的类型 。 2.6.3 乐音样本合成声音 使用FM合成法来产生各种逼真的乐音是相当 困难的,有些乐音几乎不能产生,因此很自然 地就转向乐音样本合成法。这种方法就是把真 实乐器发出的声音以数字的形式记录下来,播 放时改变播放速度,从而改变音调周期,生成 各种音阶的音符。 乐音样本的采集相对比较直观。音乐家在真实 乐器上演奏不同的音符,选择44.1 kHz的采样 频率、16位的乐音样本,这相当于CD-DA的质 量,把不同音符的真实声音记录下来,这就完 成了乐音样本的采集。 使用乐音样本合成器的原理框图 乐音样本合成器所需要的输入控制参数 比较少,可控的数字音效也不多,大多 数采用这种合成方法的声音设备都可以 控制声音包络的ADSR参数,产生的声音 质量比FM合成方法产生的声音质量要高 。 电子乐器数字接口(MIDI)系统 MIDI协议提供了一种标准的和有效的方 法,用来把演奏信息转换成电子数据。 MIDI信息是以“MIDI messages”传输的, 它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种 指令,而合成器把接收到的MIDI数据转 换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对 MIDI协议作了完整的说明。 MIDI数据流是单向异步的数据位流(bit stream) ,其速率为31.25 kbps,每个字节为10位(1位开 始位,8位数据位和1位停止位)。MIDI乐器上 的MIDI接口通常包含3种不同的MIDI连接器, 用IN(输入), OUT(输出)和THRU(穿越)。MIDI 数据流通常由MIDI控制器(MIDI controller)产生 ,如乐器键盘(musical instrument keyboard),或 者由MIDI音序器(MIDI sequencer)产生。MIDI 控制器是当作乐器使用的一种设备,在播放时 把演奏转换成实时的MIDI数据流,MIDI音序 器是一种装置,允许MIDI数据被捕获、存储、 编辑、组合和重奏。来自MIDI控制器或者音序 器的MIDI数据输出通过该装置的MIDI OUT连 接器传输。 通常,MIDI数据流的接收设备是MIDI声音发生 器(MIDI sound generator)或者MIDI声音模块 (MIDI sound module),它们在MIDI IN端口接收 MIDI信息(MIDI messages),然后播放声音。图2 -10表示的是一个简单的MIDI系统,它由一个 MIDI键盘控制器和一个MIDI声音模块组成。许 多MIDI键盘乐器在其内部既包含键盘控制器, 又包含MIDI声音模块功能。在这些单元中,键 盘控制器和声音模块之间已经有内部链接,这 个链接可以通过该设备中的控制功能(local control)对链接打开(ON)或者关闭(OFF)。 单个物理MIDI通道(MIDI channel)分成16 个逻辑通道,每个逻辑通道可指定一种 乐器,如图2-11所示。在MIDI信息 (MIDI messages)中,用4个二进制位来表 示这16个逻辑通道。音乐键盘可设置在 这16个通道之中的任何一个,而MIDI声 源或者声音模块可被设置在指定的MIDI 通道上接收。 在一个MIDI设备上的MIDI IN连接器接收到的信息可 通过MIDI THRU连接器输出到另一个MIDI设备,并可 以菊花链的方式连接多个MIDI设备,这样就组成了一 个复杂的MIDI系统,如图所示。在这个例子中,MIDI 键盘控制器对MIDI音序器(MIDI sequencer)来说是一个 输入设备,而音序器的MIDI OUT端口连接了几个声音 模块。作曲家可使用这样的系统来创作几种不同乐音 组成的曲子,每次在键盘上演奏单独的曲子。这些单 独曲子由音序器记录下来,然后音序器通过几个声音 模块一起播放。每一曲子在不同的MIDI通道上播放, 而声音模块可分别设置成接收不同的曲子。例如,声 音模块1可设置成播放钢琴声并在通道1接收信息, 模块2设置成播放低音并在通道5接收信息,而模块2设 置成播放鼓乐器并在通道10上接收消息等。在图2-12 中使用了多个声音模块同时分别播放不同的声音信息 。这些模块也可以做在一起构成一个叫做多音色 (multitimbral)的声音模块,它同样可以起到同时接收和 播放多种声音的作用。 复杂MIDI系统 图2-13是用PC机构造的MIDI系统,该系统使 用的声音模块就是这样一种单独的多音色声音 模块。在这个系统中,PC机使用内置的MIDI 接口卡,用来把MIDI数据发送到外部的多音 色MIDI合成器模块。像多媒体演示程序、教 育软件或者游戏等应用软件,它们把信息通过 PC总线发送到MIDI接口卡。MIDI接口卡把信 息转换成MIDI消息,然后送到多音色声音模 块同时播放出许多不同的乐音,例如钢琴声、 低音和鼓声。使用安装在PC机上的高级的 MIDI音序器软件,用户可把MIDI键盘控制器 MIDI接口卡的MIDI IN端口,也可以有相同的 音乐创作功能。 使用PC机构成的MIDI系统 MPC(Multimedia PC)规格需要声音卡的合成器 是多音色(muti-timbral)和多音调(polyphonic)的 合成器。 多音色是指合成器能够同时播放几种不同乐器的声 音,在英文文献里常看到用voices和patches来表示, 音色就是把一个人说话(或一种乐器)的声音与另一个 人说话(或另一种乐器)的声音区分开来的音品; 多音调是指合成器一次能够播放的音符(note)数。 MPC规格定义了两种音乐合成器:基本合成器(Base- level synthesizer)和扩展合成器(Extended synthesizer) ,基本合成器和扩展合成器之间的差别如表01所示 。 基本合成器必须具有同时播放3种旋律音 色和3种打击音色(鼓乐)的能力,而且还 必须具有同时播放6个旋律音符和3个打 击音符的能力,因此,基本合成器具有9 种音调; 扩展合成器要能够同时播放9种旋律音色 和8种打击音色。 2.6.5 MIDI消息 MIDI设备使用的一系列MIDI音符,可被认为是告诉音 乐合成器如何播放一小段音乐的指令。因为MIDI数据 是一套音乐符号的定义,而不是实际的音乐声音,因 此MIDI文件的内容被称为MIDI消息(MIDI messages)。 一个MIDI消息由1个8位的状态字节并通常跟着2个数 据字节组成。在状态字节中,最高有效位设置成“1”, 低4位用来表示这个MIDI消息是属于哪个通道,4位可 表示16个可能的通道,其余3位的设置表示这个MIDI 消息是什么类型的消息。 MIDI消息可分成通道消息(Channel Messages)和系统消 息(System Messages)两大类, MIDI通道消息可分成 通道声源消息(Voice Messages)携带的演奏数据 通道方式消息(Mode Messages)表示合成器响应 MIDI数据的方式; MIDI系统消息分成 公共消息(Common Messages)标识在系统中的所 有接收器 实时消息(Real Time Messages)用于MIDI部件之 间的同步 独占消息(Exclusive Messages)厂商的标识代码。 2.6.6 MIDI音序器和标准MIDI文件 MIDI合成器实时接收和处理MIDI消息(MIDI messages)。当合成器接收到一个“note on (乐音 开)”MIDI消息时就演奏相应的声音,当接收到 一个“note off (乐音关)”MIDI消息时就停止演奏 。如果MIDI数据源是乐器键盘,“note on”消息 就实时产生,在像这样的实时应用中,就无需 与MIDI消息一起发送一个定时信息。如果 MIDI数据存储成数据文件,或者使用音序器编 辑的数据文件,MIDI消息就需要某种形式的定 时标记(time-stamping)。 MIDI EDIT, MIDI MAKER. DUOTE 国际MIDI协会出版了标准MIDI文件规范,该标准说明 了处理定时标记MIDI数据的一种标准化方法。这种方 法适合各种应用软件共享MIDI数据文件,这些软件包 括音序器、乐谱软件包和多媒体演示软件。 标准MIDI文件规范定义了3种MIDI文件格式,MIDI音 序器能够管理文件标准规定的多个MIDI数据流,即声 轨(tracks)。MIDI文件格式0(Format 0)规定所有MIDI音 序数据(MIDI sequence data)必须存储在单个声轨上,它 仅用于简单的单声轨设备;MIDI文件格式1(Format 1) 规定数据以一个声轨集的方式存储;MIDI文件格式 2(Format 2)可用几个独立模式存储数据。 2.6.7 合成器的多音调和多音色 合成器或者声音发生器的多音调(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 股东与公司签订的长期借款及股权回购协议
- 安徽省滁州市凤阳县宋集中学2022-2023学年七年级上学期语文第一次月考试卷(含答案)
- 供应链金融应收账款质押利息支付合同范本
- 非独立董事在公司社会责任履行中的责任合同
- 证券公司独立董事聘任与证券市场规范协议
- 交通运输行业司机及乘务人员劳务合同范本
- 金融资产托管合作协议书
- 网红餐厅品牌店面承包合同
- 交通基础设施建设担保协议书
- 展会现场参展商礼品赠送与兑换合同
- 机关单位保密培训大纲
- 《绿色蔬菜种植技术》课件
- 初步设计及概算评估咨询服务方案投标文件(技术方案)
- 深度学习课件:适合初学者的教程
- 英语四级+六级词汇大全(带音标)
- 2025唐山市遵化市华明路街道社区工作者考试真题
- 排水管网工程运营管理与维护方案
- 弘扬教育家精神做“四有”好老师专题培训
- 2025至2030中国煤炭贸易行业营销战略分析及未来发展机遇可行性报告
- 风力发电系统安全性研究-深度研究
- 大学新生专业思想教育
评论
0/150
提交评论