第3讲 音频信号的获取与处理_第1页
第3讲 音频信号的获取与处理_第2页
第3讲 音频信号的获取与处理_第3页
第3讲 音频信号的获取与处理_第4页
第3讲 音频信号的获取与处理_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.1 音频基础知识 3.2 音频处理软件Audition的使用 最初的音频是用电信号记录下来进行存储和传输 的,在时间上和幅度上都是连续变化的,称之为模 拟音频,而计算机只能处理离散的数字信号,因此 需对模拟音频进行数字化处理,即将它转变为由0和 1表示的在时间和幅度上都是离散的是数字音频。 3.1.1 声音信号的基本概念 3.1.2 声音信号的数字化 3.1.3 数字音频的获取方式 3.1.4 数字音频的文件格式 声音是通过一定介质(如空气、水等)传播的一种 连续的波,声音的主要传播介质是空气,因此,声音的 本质是空气振动,由于空气振动引起耳膜的振动,然后 被人耳所感知。 声音既然是波,它

2、就具有普通波特性:反射、折射、 衍射,但这不是多媒体技术要研究的内容,我们需要关 注它的两个基本参数:频率和振幅。 频率:声波每秒钟变化的次数,它代表声音变化的快 慢,决定了声音音调的高低,单位是Hz。 振幅:声波振动幅度的大小,它代表了声音能量的强 弱,决定了声音音量的大小。 声音的本质是空气振动,但并不是所有的空气 振动都能被人耳所感知。人耳所能感觉到空气振动 的频率范围大约为20Hz20kHz(注意,大于20KHz 的声音并非感知不到,而是我们不能从中获得有用 的信息并且它对人体是有害的)。因此,多媒体技 术中所研究的音频(Audio)信号是指频率范围在 20Hz20kHz之间的声波,即

3、人耳能识别的声音。根 据声音能否被人耳接收与声音是否是人类所发出的 声音,一般将声音信号进行如下划分: 如图3-1所示,根据声音信号的带宽,我们可以将 声音信号划分为次声波、音频信号和超声波三个波段, 而音频信号又可分为语音(Speech)信号和非语音 (Sound)信号两类,其中语音信号特指人类发声器官所 发出的声音,其频率约为200-3400Hz。 语音信号特指人的发声器官所发出的声音信号, 人的发音器官发出的声音的频率范围大约在80 3400Hz之间,而人说话的信号频率通常在300 3000Hz之间。语言是人类社会的一种特有的信息系 统,是社会交际工具的符号,而语音是语言的物质 外壳(载

4、体)。语音识别是多媒体技术的一个重要 的研究方向,即希望计算机能自由地“听懂”人类 的语言。 非语音是指语音信号范围外的人耳所能识别的音 频信号,主要包括乐音和杂音,非语音信号的特点 是不具有复杂的语义和语法信息,信息量比较低, 因此识别简单。 声音具有音调、音强和音色3个要素。 (1)音调:由声音信号的频率变化所决定,人对声音频 率的感觉表现为音调的高低,在音乐中称为音高。 (2)音强:由声音信号的幅度大小所决定,人对声音振 幅的感觉表现为声音有强弱,也就是我们平时常说的音 量大小,音量以分贝(dB)为单位。人对声音强弱的听觉 响应与声音振幅成对数关系1dB=20log(幅值)。人类能感 知

5、的声音的幅度范围在0120(dB)之间。 (3)音色:由声音的频谱(基音与泛音基音与泛音之间的关系)决 定。声波的各阶谐波的比例不同,随着时间衰减的程度 不同,音色随之变动。 声音是机械振动,振动越强,声音越大。声波本身 难以进行远距离传送,而且也不能存储。为了将声音 进行存储和传输,通常是将声音信号转换为电信号, 用电压或电流的幅度表示声音强弱。这样声音信号表 现为在时间和幅度上都是连续的电信号,如图3-2所示, 这样表示的音频信号即模拟音频。 模拟音频是连续的,然而计算机只能处理以0 和1的形式表示的离散的信号量。在计算机内,所 有的信息均以数字表示。各种命令是不同的数字, 各种幅度的物理

6、量也是不同的数字。要想在计算机 中对音频信号进行存储、传输、播放、处理,就必 须进行音频的模/数转换,即把模拟音频信号数字 化,形成数字音频,最后通过编码以文件的形式存 储于计算机中。 将连续的模拟音频信号转换为离散的数字音频信号, 通常采用的方法是每隔固定时间间隔对模拟音频信号测定 一个幅值(采样),并用给定位数的二进制数表示这个幅 值(量化)。 (1)采样(Sampling):在某些特定的时刻对模拟 信号进行测量叫做采样,由这些特定时刻采样得到的信号 称为离散时间信号,采样的作用是把连续的时间信号变为 离散的时间信号。 (2)量化(Quantization):经过采样获得的离散 时间信号的

7、幅度值依然是连续的,因此需要对这些幅度值 进行量化。把幅度区间划分成n个区间,一个区间对应于 一个幅度值,对于所有落入第i个区间的任何幅度值,都 用同一个幅度值来表示。这个过程称为量化。 音频经过数字化采样和量化得到的时间和幅度都 离散的数字信号就称为数字音频信号。 由上论述可知,声音数字化也即对连续的模拟声 音信号进行离散化,这种离散要进行两方面的离散, 即时间的离散和强度的离散。连续时间的离散化通 过采样来实现;连续强度的离散通过量化来实现。 此时就需要考虑两个问题:一是在哪些时刻对声音 进行采样,即每秒钟需要采集多少个声音样本,也 就是采样频率是多少;二是每个样本用多少个二进 制位来存储

8、,即每个声音样本的位数应该是多少, 也就是量化精度。 采样频率一般是由奈奎斯特采样定理决定。奈奎 斯特采样理论(Nyquisttheory)指出,采样频率不 应低于声音信号最高频率的两倍,这样才能把以数 字表达的声音还原成原来的声音。奈奎斯特理论采 样定理用公式表示为 fs2f或者TsT/2 其中fs为采样频率,Ts为采样周期,f为被采样 信号的最高频率,T为被采样信号的最小周期。采样 频率的高低是根据奈奎斯特理论和声音信号本身的 最高频率决定的。例如,电话话音的信号最高频率 约为3.4kHz,采样频率通常选为8kHz。 量化样本的位数由计算机的性能和对声音质量的 要求决定,一般有8位量化、1

9、6位量化和32位量化, 即分别用一个字节、两个字节和四个字节存放一个 采样点的幅度值。量化位数越高,需要的存储空间 越大,但此时声音细节的丢失比较少,声音的质量 较好。 做完采样和量化以后还需对它们(数字信号)进行编码 从而以文件的形式存储于计算机中。编码的作用有两个: 一是采用一定的格式来记录数字数据;二是采用一定的算 法来压缩数字数据以减少存储空间和提高传输效率。 一种最方便、最简单的编码方法是脉冲编码调制,简称 PCM编码;这是一种最通用的无压缩编码,其特点是保真度 高,解码速度快,但编码后的数据量大。 衡量一种编码方法的性能有两个主要指标: 码流速率:音频信号数字化编码后每秒钟产生的数

10、据 流量(kbps) 量化噪声:由量化失真引起的噪声,表示为量化后音 频信号噪声比 数据率定义为每秒比特数(bps),与信息在计算机中的实 时传输有直接关系;数据量定义为每秒字节数(B/s),与计算 机的存储空间有直接关系。 未经压缩数字音频数据量(B/s)采样频率(Hz)(量化 位数(bit)/8)声道数 在多媒体应用软件中,经常要使用音频素材。数 字音频的获取主要有以下几种方式: (1)使用声卡采集模拟设备上的声音信息,并以文 件的形式存储在计算机中。 (2)使用声卡录制声音信息,并以文件的形式存储 在计算机中。 (3)使用声卡及MIDI设备在计算机上创作乐曲。 (4)从互联网下载或购买音

11、频光盘。 (5)从CD或VCD上截取音频数据。 (6)从视频上获取音频数据。 数字音频数据在计算机中以文件的形式出现。流 行的声音文件格式很多,以WAV、MP3、MIDI为扩展 名的文件格式比较常见。 1WAV格式音频文件 2VOC格式音频文件 3MP3格式音频文件 4RA格式音频文件 5MIDI格式音频文件 6WMA格式音频文件 WAV格式音频文件是最早出现的数字音频格式, 也叫波形声音文件,由Microsoft公司和IBM公司共 同开发。它记录了对实际声音采样的数据,被 Windows平台及其应用程序广泛支持。WAV格式支持 多种音频量化位数、采样频率和声道。采用44.1kHz 的采样频率

12、、16位量化位数的WAV文件的音质与CD相 差无几。 WAV文件数据的缺点是数据量大,优点是音质较 好,而且它还是一种标准数字音频,大多数压缩格 式的声音都是在它的基础上经过数据的重新编码来 实现的,这些压缩格式的声音信号在压缩前和回放 时都要使用WAV格式。 VOC格式音频文件是CreativeLab公司开发的声音 文件,也是声霸卡使用的音频文件格式,被Windows 平台支持。每个VOC文件由文件头块和音频数据块组 成。文件头包含一个标识、版本号和一个指向数据 块起始的指针。数据块分成各种类型的子块,如声 音数据、静音、标记、ASCII文件以及终止标志、扩 展块等。 MP3的全称是MPEG

13、-1AudioLayer3,是近年来颇为 流行的音乐文件,它在1992年被合并至MPEG规范中。 MP3文件的音质较好,并且文件的数据量较小。 RA文件是RealNetwork公司开发的一种流式音频 文件,主要应用于网络上进行音频传输,网络连接 连率不同,客户端所获得的声音质量也不尽相同。 对于传输速率为14.4kbit/s的网络连接可获得调幅 (AM)质量的音质;对于传输速率为28.8kbit/s的 网络连接,可以达到广播级的声音质量;如果拥有 更快的线路连接,则可获得CD音质的声音。 MIDI是MusicalInstrumentDigitalInterface的 缩写,又称做乐器数字接口,

14、是数字音乐/电子合成 乐器的统一国际标准。它定义了计算机音乐程序、 数字合成器及其他电子设备交换音乐信号的方式, 规定了不同厂家的电子乐器与计算机连接的电缆和 硬件及设备间数据传输的协议,可以模拟多种乐器 的声音MIDI文件就是MIDI格式的文件,在MIDI文件 中存储的是一些指令,声卡接收到这些指令后就按 照指令将声音合成出来。 WMA文件是Microsoft公司开发的一种音频压缩格 式,存储容量比MP3小,但音质稍差。 在多媒体的制作领域,音频是不可或缺的部分。音频的 处理通常包含声音的编辑、特殊效果的添加及文件格式转换 等操作。常见的音频处理软件有Windows操作系统中的 SoundR

15、ecorder(通常被称做录音机)、SoundBlaster系列音 频卡所附带的WaveStudio以及一些专门的多媒体音频处理软 件,如GoldWave、Audition等。本节以Audition为例,介绍 声音录制和编辑的基本技能以及一些特殊处理方法。 3.2.1 Audition介绍 3.2.2 Audition基本操作 3.2.3 Audition音频处理综合实例 Audition的主要功能有录制和采集音频文件;对音频文 件进行剪切、粘贴、合并、重叠声音等操作;提供多种特效 (如放大、降低噪音、扩展、回声、延迟、失真、调整音调 等);可以生成噪音、低音、静音、电话信号等声音;可以实 现

16、自动静音检测和删除、自动节拍查找等功能;可以在多种音 频文件格式之间进行转换。 1Audition界面 2Audition功能菜单 Audition有两种编辑状态,即波形编辑状态和多音轨编 辑状态,如后图所示,这两种状态可以通过快捷键【F12】或 默认工具栏的第一个按钮进行切换。波形编辑状态主要用来 对音频进行编辑,多音轨编辑状态主要用来进行音频合成。 Audition波形编辑状态从上到下共分为标题栏、菜单栏、 工具栏、资源管理区、波形显示区、操作区、状态栏显示区 六个部分,如图中所示。 Audition2.1在波形编辑窗口界面共有10个一级菜单,包括File(文 件)、Edit(编辑)、Vi

17、ew(查看)、Effects(效果)、Generate(生 成)、Analyze(分析)、Favorites(偏好)、Options(选项)、 Window(窗口)、Help(帮助)和30多个快捷工具,下面进行简单介绍。 (1)File(文件) (2)Edit(编辑) (3)View(查看) (4)Effects(效果) (5)Generate(生成) (6)Analyze(分析) (7)Favorites(偏好) 此菜单主要为对音频文件的一些操作,如新建、打开、关闭、存储 等,同时包括如下一些专为音频文件设计的操作。 OpenAppend(追加):将一个音频文件连接在一个已打开的文件的尾部。

18、 ExtractAudiofromVideo(从视频提取声音):可以从视频文件中把声音 提取出来,主要是针对*.avi、*.mpg等格式的视频文件。 SaveSelection(保存选取区域):允许将当前选中的部分波形文件单独 保存下来。 FreeHardDriveSpace(清理硬盘空间):Audition进行音频编辑时,会随 时产生一些临时文件并存储在指定的临时文件夹中,在硬盘中占了很大空 间,使用该命令可以清空这些临时文件。 此菜单包含了一些常用的剪贴板操作,如复制、粘贴、 删除等。其中属于音频文件的特有操作如下。 MixPaste(混合粘贴):将剪贴板中的波形内容混合到当前 波形文件中

19、。 InsertinMultitrack(插入多轨工程):将当前文件或当前 文件被选中部分在多轨窗口中插入一个新轨,要事先在多轨 模式下选择好轨道和音频块的开始位置,用鼠标单击即可。 DeleteSilence(删除静音):删除波形文件中分贝极小的信 号,可以使当前文件变短。 ZeroCrossings(零点定位):将选中区域的 开头和结尾自动调节在无声的状态。 FindBeats(确定节拍):自动查找音乐中一 个完整的拍子的起止点。 AdjustSampleRate(调整采样率):改变声 卡播放当前音频文件时所用的采样频率。 ConvertSampleType(转换音频格式):改变 当前文件

20、的采样频率和量化位数等参数。 大多为一些打开/关闭各子窗口以及快捷工具栏命令,其 中比较常用的和音频操作相关的子菜单如下。 MulititrackView(多轨窗口切换):切换到多轨编辑状态。 WaveformView(波形编辑窗口):显示波形。 SpectralView(频谱编辑窗):显示频谱。 它是Audition中的主要功能菜单,可以为音频增加很多 特效。 Invert(反相):将波形的上半周和下半周互换。 Reverse(倒置):将被选中的波形的开头和结尾反相。 Silence(静音):将被选中的波形变成零振幅的信号。 Amplitude(波形振幅):对音频信号振幅的处理,即改变声 音

21、信号的音量。该菜单下有8个子菜单,可以通过对声音信号 音量的改变获得一些特殊效果。 DelayEffects(延迟效果):对延迟混响效果的处理,有11 个子菜单,可以制作出一些场地声音、合唱效果等。 DirectX:列出支持的Direct的效果器插件。 Filters(滤波器):可以对音频信号进行各种滤波处理。 Special(特殊处理):产生一些特殊效果。 NoiseReduction(噪音消除):消除选中音频的噪音。 可以生成一些特殊的声音 Silence(静音):生成静音。 Tone(音调):根据你的选择,生成一些标准信号音。 Noise(噪波):生成噪音信号。 DTMFSignals:

22、生成类似电话拨号音的信号。 自动对声音信号内部信息进行分析,并给出一些可视化 的结果。 ShowFrequencyAnalyze:显示音频信号的频谱分析图像。 ShowPhaseAnalyze:显示音频信号的相位分析图像。 Statistics:显示音频信号波形统计数据。 显示曾经使用过的效果编辑命令。 1声音的录制 2噪音消除 3音频数据编辑 4音量调节功能 5改变播放速度、改变音调高低 6音效添加 在一个具有声卡的计算机上,使用Audition可以通过麦 克风直接录制外界声音,也可以从录音机、CD唱机等外界媒体 设备获得声音。 (1)创建音频文件 (2)设置录音音源 (3)打开监视电平,调

23、试录音音量 (4)开始录音,注意录制一段空白的含噪声的信号 (5)试听,如果效果较差可重新录制。 运行 Audition程 序,执行 【File】 【New】命 令,弹出新 建音频文件 对话框,如 图所示。 在Windows的【开始】菜单中选择【附件】 【娱乐】【音量控制】命令,打开如图所示的 【音量控制】窗口。 在【音量控制】窗口中选择【选项】【属性】命 令,打开音频属性对话框,如图所示。 在对话框中选择采样频率、量化位数、声道数后单击 【确定】按钮。然后单击功能键中的录音按钮,开始录音, 录制完毕单击停止按钮停止录音。按空格键,试听录音效果, 再按一次空格键,结束试听。 执行【File】【

24、SaveAs】命令,在出现的保存文件对 话框中将录音保存到磁盘中。 通常自己录制的音频由于环境问题往往带 有噪音,这种环境噪音一般贯穿整个声音文件 始终,可以使用Audition去除这种噪音。 (1)选择一段噪音信号。 (2)在降噪对话框中获得噪音样本信息,必 要的时候保存这个样本。 (3)回到波形编辑,选中整个录音波形。 (4)在降噪对话框中执行降噪操作。 (1)选中音频开始时的环境噪音(此时人 声还没有开始),如图所示,呈现白色的区域 即为被选中区域。 (3)在波形编辑界面中执行【Edit】 【SelectionEntireWave】命令,选中全部音频文 件, (4)然后再次执行【Effe

25、cts】 【NoiseReduction】【NoiseReduction】命令, 打开去除噪音对话框,单击【OK】按钮,完成去除 噪音操作。 音频数据的编辑包括声音片段的选择、拷贝、剪 切、删除、粘贴等操作。 在Audition中,不管进行什么操作,都要首先选 择需要处理的区域,如果不选择,Audition默认对整 个音频文件进行操作。 Audition中提供了三种音频粘贴方式。 (1)普通粘贴 (2)粘贴到新文件 (3)混合粘贴 (1)普通粘贴:执行【Edit】【Paste】 命令将内部剪贴板上的数据插入到当前波形插入 点位置。这样插入点前的原波形文件和插入点后 的原波形文件不变,只是在两个声音间插入了新 的内容。 (2)粘贴到新文件:执行【Edit】 【PastetoNew】命令可将剪贴板中的波形数据创 建一个新文件。 (3)混合粘贴:执行【Edit】【MixPaste】命令可以 弹出一个混合粘贴对话框,如图所示。在对话框左下方的 粘贴模式中选择【Overlap】模式,即叠加模式,可以将 剪贴板中的音频数据叠加在文件已选中的音频数据中。 【Effects】菜单下的【Amplitude】子菜单下有一系 列和音频信号振幅相关的选项,可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论