




免费预览已结束,剩余49页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
联系电话 6503178 主讲教师 信息科学系王兵 MultimediaTechnology 第二章音频 音频 声音 是表达思想和情感的一种必不可少的媒体 也是多媒体信息中一个重要组成部分 声音的种类有很多 从人的说话声 乐声到风声 雨声 当它能与文字 图像等结合 一起传递信息时 计算机世界才会变得如此丰富多彩 目录 数字音频基础 1 MIDI与音乐合成 2 声卡 3 4 音频处理软件CoolEdit 语音识别技术 周期 两个相邻信号波峰之间的时间间隔 振幅 波形顶峰 或低点 与基准线的距离 频率 每秒钟内波峰的数目或周期数量 单位Hz 2 1数字音频基础 声音是通过一定介质传播的一种连续波 可通过振幅 amplitude 周期 period 与频率 frequency 来表示波形声音 一 声音的基本概念 声波 声音按频率分类 人类说话声音频率范围 300Hz 3kHz 2 1数字音频基础 声音三要素 音调 与声音的频率有关 频率高则声音高 频率低则声音低 音强 又称响度 取决于声音的幅度 也即振幅决定声音的大小和强弱 2 1数字音频基础 音色 由混入基音的泛音所决定的 每个基音都有其固有频率和不同音强的泛音 因此使得每个声音具有特殊的音色效果 2 1数字音频基础 自然界的声音大多属于非周期信号 包含一定频带的所有频率分量 其频谱是连续谱 连续谱的成份使声音听起来饱满 生动 声音的连续谱 几种常见的声音频宽 声音的方向感 声音的传播是以声波形式进行的 由于人类的耳朵能够判别出声波到达左右耳的相对时差和声音强度 所有能判断出声音的来源方向 同时也由于空间使声音来回反射 造成了声音的特殊空间效果 声音是时基类媒体声音具有过程性 是强实时 连续的 二 声音的数字化 2 1数字音频基础 1 声音信号的类型 模拟信号 把在时间和幅度上都是连续的信号称为模拟信号 数字信号 时间和幅度都用离散的数字表示的信号 模拟信号 数字信号 2 声音数字化过程 2 1数字音频基础 采样 在某个特定时刻对模拟量进行测量 每隔一定时间对模拟信号幅值进行测量 即在时间上将模拟信号离散化 量化 用有限个幅度值近似原来连续变化的幅度值 把模拟信号的连续幅度变为有限数量的有一定间隔的离散值 编码 按照一定规律 将量化后的值用二进制数字表示 然后转化成二值或多值的数字信号流 2 1数字音频基础 2 1数字音频基础 3 声音数字化三要素 数据量 bytes s 采样频率 Hz s 量化位数 bit 声道数 8 2 1数字音频基础 采样频率 采样精度 声道数 4 声音数字化计算公式 1 WAV文件WAV是Windows所使用的标准数字音频文件 也称波形文件 因未经压缩 文件数据量很大 特点 声音层次丰富 还原音质好2 MP3文件MP3 MPEGAudiolayer3 是一种按MPEG标准的音频压缩技术制作的音频文件 特点 高压缩比 1 11 优美音质 2 1数字音频基础 三 数字音频的文件格式 3 WMA文件WMA的全称是WindowsMediaAudio 它是微软公司推出的与MP3格式齐名的一种新的音频格式 特点 在压缩比和音质方面都超过了MP34 MIDI文件MIDI 乐器数字接口 是一组声音或乐器符号的集合 特点 数据量很小 缺乏重现自然音 2 1数字音频基础 2 2MIDI与音乐合成 一 MIDI简介 MIDI是一种乐器和计算机之间通话的语言 MIDI产生声音的方法与声音波形采样输入的方法有很大不同 它不是将模拟信号进行数字编码 而是把MIDI音乐设备上产生的每个动作记录下来 比如我们在电子键盘上演奏 MIDI文件记录的不是实际乐器发出的声音 而是记录你弹奏时弹的是第几个键 按键按了多长时间等等 我们把这些记录的参数叫做指令 MIDI文件就是记录这些指令 就是因为这个原因 相同时间长度的MIDI音乐文件一般都比常用的波形文件 wav 小得多 MIDI是MusicalInstrumentDigitalInterface 乐器数字接口 的缩写 是音乐和计算机结合的产物 用于在音乐合成器 电子乐器 计算机之间交换音乐信息的一种标准协议 2 2MIDI与音乐合成 二 MIDI音乐制作系统结构 MIDI输入设备通过MIDI接口与计算机相连 MIDI依靠这个接口传递消息来进行彼此通信 这样 计算机可通过音序器软件来采集MIDl输入设备发出的一系列消息或指令 并记录到以 mid为扩展名的MIDI文件中 在计算机上音序器可对MIDI文件进行编辑和修改 最后 将MIDI文件送往音乐合成器 由合成器将MIDI文件进行解释并产生波形 然后通过声音发生器送往扬声器播放出来 MIDI键盘电子琴虚拟键盘 系统的核心设备按照标准MIDI格式记录曲子 控制MIDI数据转换为音频输出 模拟乐器发声的设备 2 2MIDI与音乐合成 三 MIDI合成器 合成器是一种电子设备 大多情况装在声音卡上 合成器把以数字形式表示的声音转换回原来的模拟信号波形 再送回喇叭 产生声音效果 它的核心是合成器芯片 利用合成器产生MIDI乐音的主要方法是调频FM FrequencyModulation 合成法和波形表WT WaveTable 合成法 调频合成法 FM合成法是20世纪80年代初由美国斯坦福大学的JohnChowning发明的 FM合成法生成乐音的基本原理是 用数字信号来表示不同乐音的波形 然后把它们组合起来 再通过数模转换器 DAC 生成乐音播放 简单来说 FM合成法就是通过多个频率的声音混合来模拟乐器声音的方法 使用FM合成法来产生各种逼真的乐音是相当困难的 有些乐音几乎不能产生 目前的声卡一般采用乐音样本合成法 即波形表合成法 它把真实乐器发出的声音以数字的形式记录存储起来 播放时根据命令生成各种音阶的音符 产生高质量的声音 2 2MIDI与音乐合成 波形表合成法 WAVE和MIDI音乐的比较 2 3声卡 一 声卡的功能 1 声卡简介声音卡或音频卡 AudioCard 是负责录音 播音和声音合成的一种多媒体板卡 也是计算机进行所有与声音相关处理的硬件单元 典型的产品 Creative创新公司的SoundBlaster 2 声卡的功能 录音和播放数字声音文件控制声音的音量对声音文件压缩解压缩语音合成与语音识别声音效果合成 2 3声卡 二 声卡的组成原理 总线接口芯片为声卡的各个部分与系统总线提供握手信号 同时它也是命令和数据的缓冲器 在声卡与系统总线之间传输命令与数据 音乐合成器负责将数字音频波形数据或MIDI消息合成为声音 完成声音信号从模拟到数字和从数字到模拟的相互转换 可以完成各种信号的记录和播放任务 还可以完成许多处理工作 如ADPCM音频压缩与解压缩运算 改变采样频率 解释MIDI指令或符号以及控制和协调直接存储器访问工作 可以将不同途径 如话筒或线路输入 CD输入的声音信号进行混合 此外 混音器还为用户提供软件控制音量的功能 三 声卡的I O接口 2 3声卡 线性输入接口 LineIn 可与录音机 CD唱机和音响等相连 进行播放或录音 话筒输入接口 MicIn 可与话筒相连 进行语音的录入 线性输出接口 Lineout 可跳过声卡的内置放大器 而连接一个有源音箱或外接放大器进行音频的输出 扬声器输出接口 SpeakOut 从声卡内置功率放大器连接扬声器进行信号输出 游戏棒 MIDI接口 Joystick MIDI 可将游戏杆或MIDI设备如MIDI键盘连接到声卡上 2 3声卡 四 声卡的技术指标 2 3声卡 3 DSP芯片在一些较高档的声卡上都带有数字信号处理器 DSP 芯片 这是一种专门的数据处理器 可以通过软件编程来完成音频处理和压缩等任务 从而减轻CPU的压力 5 CD ROM接口许多声卡提供了CD ROM接口 使得通过音频卡直接播放CD音乐 4 音频压缩声卡应支持几种标准的音频压缩算法 7 输出声道数声道数 简言之就是此声卡芯片支持输出的音箱数量 一般可以分为单声道 双声道 4 1声道 5 1声道甚至7 1声道声卡 目前市场上主流的声卡芯片一般都支持2个以上的声道 2 3声卡 创新公司的5 1声卡 音箱 6 软件支持应具有DOS和Windows环境的驱动程序以及功能强大的音频信息处理实用工具 2 3声卡 4 1音箱 主音箱背面 低音炮 放大 卫星音箱与主音箱连接 音箱和声卡连接线 音箱摆放 小知识 如何连接4 1音箱 2 4语音识别技术 一 语音识别的发展历史 1952 Bell实验室研制可识别十个英文数字的语音识别器 Audry系统 60 80 动态规划 DP 线性预测 LP 矢量量化 VQ 隐马尔可夫模型 HMM 人工神经元网络 ANN 特定人 孤立词 小词汇量语音识别系统 1988 卡内基 梅隆大学研制SPHINX系统非特定人 大词汇量 连续语音 1997 IBM公司开发出汉语ViaVoice语音识别系统 ViaVoice98 地方口音 语音识别分为训练和识别两个阶段 训练阶段是在机器中建立被识别语音的样板或模式库 或者对已存在机器中的样板或模式做特定发音人的适用性修整 在识别阶段 将被识别的语音特征参量提取出来进行模式匹配 相似度最大者即为被识别语音 2 4语音识别技术 二 语音识别的基本原理 预处理部分包括语音信号采样 反混叠带通滤波 去除个体发音差异和设备 环境引起的噪声影响等 并涉及语音识别基元的选取和端点检测问题 特征提取部分用于提取语音中反映本质特征的声学参数 如平均能量 平均跨零率 共振峰等 训练在识别之前进行 通过让讲话者多次重复语音 从原始语音样本中去除冗余信息 保留关键数据 再按照一定规则对数据加以聚类 形成模式库 模式匹配部分是整个语音识别系统的核心 它是根据一定的准则以及专家知识 计算输入特征与库存模式之间的相似度 判断出输入语音的语义信息 2 4语音识别技术 三 语音识别系统的分类 语音识别研究的最终目标是要实现大词汇量 非特定人 连续语音的识别 2 4语音识别技术 四 语音识别软件ViaVoice 目前汉字输入的方式主要有四种 键盘输入 手写输入 扫描输入和语音输入 键盘输入 键盘输入基本上是基于各种输入法 主要又分为字形输入法和拼音输入法 键盘输入法在输入速度有要求的情况下对于键盘操作 指法要求比较高 手写输入 手写输入是最容易上手的输入方法 扫描输入 扫描输入对于硬件要求比较高 主要是适用于资料的整理 语音输入 语音输入对输入人员的键盘操作能力 指法要求很低 几乎可以说你只要会说汉语 就可以进行语音输入 ViaVoice语音识别系统可用于声控打字和语音导航 只要对着微机讲话 不用敲键盘即可打汉字 每分钟可输入150个汉字 是键盘输入的两倍 是普通手写输入的六倍 该系统识别率可达95 以上 并配备了高性能的麦克风 使用便利 特别适合于起草文稿 撰写文章 和准备教案 是文职人员 作家和教育工作者的良好助手 2 4语音识别技术 2 5音频处理软件CoolEdit CoolEdit是著名的数字音频软件制作公司Syntrillium开发的一款功能十分强大的数字音频处理软件 它分为CoolEditPro和CoolEdit2000两个版本 前者是全功能的专业版 后者是其简化版 本节以CoolEditPro2 0中文汉化版为例简要介绍它的功能 CoolEditPro2 0集成了几个相当专业且高效的音频处理工具 功能十分强大 它可以同时处理多达128路音频信号 并且可以对每一路音频信号单独进行编辑处理 加入不同的音效 特效如压缩 扩展 回响 回声 失真 延迟 放大等 它不但能处理多种声音文件的格式 还能直接从CD或VCD中摘录声音 处理后的声音还可以以各种各样的格式输出 2 5音频处理软件CoolEdit 一 CoolEditPro2 0安装及窗口组成 3 破解 2 汉化 1 安装 2 5音频处理软件CoolEdit 波形单轨编辑窗口 2 5音频处理软件CoolEdit 多轨混音编辑窗口 1 将话筒插入电脑声卡的麦克风插孔 开启话筒电源 2 启动CoolEditPro后 切换到波形单轨编辑窗口 3 选择菜单 文件 新建 出现 新建波形 对话框 选择适当的采样率 声道数 采样精度 如图所示 4 按下操作区的 按钮 开始录音 5 单击操作区左上角的 按钮就可以停止录音 6 通过单击 按钮进行试听 7 保存 二 单轨音频基本编辑方法 2 5音频处理软件CoolEdit 1 录音 2 5音频处理软件CoolEdit 2 摘录 CoolEditPro可以从CD或VCD中摘录声音 现以CD为例 步骤如下 1 将CD放入光驱中 选择菜单 文件 从CD中提取音频 2 在 音轨 下拉文本框中选择要提取的音轨 单击 确定 如图所示 3 通过菜单 文件 另存为 选择需要的类型进行保存 2 5音频处理软件CoolEdit 3 其它操作 其他操作如剪切 复制 粘贴等功能和一般的应用软件很相似 如果要选中右声道中的波形 则可以将光标移到波形窗口下方边界时 光标显示 R 的时候拖动鼠标 如图所示 同样的 如果要选中左声道中的波形 则可以将光标移到波形窗口上方边界时 光标显示 L 的时候拖动鼠标 1 打开要处理的音频文件 2 选择菜单 效果 波形振幅 渐变 3 在弹出的对话框 预置 里 选择要处理的分贝数 带 Cut 的表示降低声音分贝数 带 Boost 则相反 如图所示 三 单轨音频效果处理 2 5音频处理软件CoolEdit 1 音量调整 4 单击右下角的 预览 可以试听 若不够理想在进行以上的操作 直到满意为止 单击 确定 完成音量调整 2 5音频处理软件CoolEdit 2 淡入淡出 淡入淡出功能可使声音从无到有或从有到无 即声音的音量渐变 1 打开要处理的音频文件 2 选择菜单 效果 波形振幅 渐变 3 设置淡入淡出参数 在对话框的右边提供了一些常用的预设参数 如图所示 2 5音频处理软件CoolEdit 3 降噪 降噪就是降低或消除设备噪声 环境噪声 喷音 爆音等不应有的杂音 录进计算机里的声音一定会存在或多或少的噪声 背景噪声是一般个人计算机录音中最大的问题 如声卡的杂音 计算机的风扇 硬盘 音箱 空调 电话等都是噪声源 对各种噪声有不同的解决办法 常用的有FFT采样降噪 使用噪声门 调整均衡等方法 采样降噪是目前比较科学的一种消除噪声的方式 即首先获取一段纯噪声的频率特性 然后在搀杂噪声的音乐波形中 将符合该频率特性的噪声从声音中去除 1 录音前可以单独录制一段跟正式录音环境一致的纯环境噪声 或者是在正式录音前空录几十秒纯环境噪声 选择 文件 新建 设置采样率为11 025kHz 量化位数为8bit 声道为单声道 然后单击录音按钮开始录制环境噪声 2 5音频处理软件CoolEdit 开始录制环境噪声 为采集到足够多的环境噪声 可以适当加长录音时间 比如10秒 录制好的环境噪声文件如图所示 2 5音频处理软件CoolEdit 2 录制完成以后 选中刚刚录制的一段纯环境噪声 对这段纯环境噪声提取噪声样本 选择 效果 噪音消除 降噪器 单击 噪音采样 按钮 如图所示 2 5音频处理软件CoolEdit 3 单击 保存采样 按钮 将样本保存以备后用 如图所示 2 5音频处理软件CoolEdit 4 新建一个文件 开始录音 录好以后全选 Ctrl A 选择 效果 噪音消除 降噪器 单击 加载采样 按钮 单击 确定 按钮以后 录音文件被降噪 处理前后波形如图所示 2 5音频处理软件CoolEdit 4 均衡 均衡 用于提升或衰减某些频段的音量 也用于通过调音台的均衡减少噪声和创造新的音色 重击声大约在70Hz 温暖的声音大约在250Hz 浑声音产生自400Hz 800Hz 鼻音一般在1kHz 2kHz 急噪的声音在3kHz 4kHz左右 齿擦的声音在5kHz 6kHz 8kHz是 噗噗 声 明亮的声音在10kHz 13kHz 而17kHz到更高的频率是空声音 例如 为了在过于刺耳的声音中加入一些温暖的成分 可以试着在3kHz处降低1dB 2dB 在275Hz处提升0 5dB 音频中常用频率 2 5音频处理软件CoolEdit 1 打开待处理的音频文件 2 选择 效果 滤波器 快速滤波器 在弹出的 快速滤波器 对话框中 根据音频处理的要求 拖动滑块调整各个频段的增减 如图所示 2 5音频处理软件CoolEdit 5 混响 混响 简单说就是声音余韵 音源在空间反射出来的声音 适当设置混响效果 可以更真实更有现场感地再现音源 也可以起到修饰 美化的作用 1 打开待处理的音频文件 2 选择 效果 常用效果器 混响 在弹出的 混响 对话框中设置各项参数即可 2 5音频处理软件CoolEdit 6 延迟 延迟 即增加音源的延续 它不同于混响 它是原声音的直接反复 而非余韵因 也不同于合唱 合唱是单纯的声音重叠 而延迟给人一种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司职工安全培训课件
- 《论语》十则课件
- 现场施工工作总结
- 公司级安全培训目标课件
- 事故安全培训新闻稿课件
- 护理危重病人查房
- 医院战略合作协议书范本6篇
- 电信销售工作汇报
- 电梯维保部半年工作总结
- 血战一法两规培训
- 人教版高一物理同步讲练《匀变速直线运动规律的推论及应用(讲)》含答案解析
- 急性牙髓炎病例汇报
- 小米公司绩效管理办法
- (高清版)DB11∕T 2464-2025 应急避难场所运维技术导则
- IEEE 519-2022-IEEE谐波控制标准电力系统(译文)
- 消防设施联动测试方案
- 10月高一月考地理试卷
- 配料间安全管理制度
- 2025年国家能源集团神东煤炭招聘笔试冲刺题(带答案解析)
- JG 3035-1996建筑幕墙
- 大宗商品贸易管理制度
评论
0/150
提交评论