第2章音频信息处理 2012-9_第1页
第2章音频信息处理 2012-9_第2页
第2章音频信息处理 2012-9_第3页
第2章音频信息处理 2012-9_第4页
第2章音频信息处理 2012-9_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章音频信息处理 2 1音频处理基础本节要点声音的基本特征音频的数字化数字音频文件格式数字音频处理技术 1 声波 1 声波 由各种机械振动或气流扰动引起周围的弹性媒质发生波动 2 声源 产生声波的物体 如人的声带和乐器等 3 声音 人的听觉系统所能感知到的声波 音频的频率范围 20Hz 20000Hz 语音的频率范围 300Hz 3000Hz 次声波的频率范围 20kHz 4 声强 对于一定频率的声音 要能引起听觉 其声强也有一定的范围 下限 是恰能引起人听觉的最小声强 叫做该频率的可闻阈 上限 是指人耳能听闻的最大声强 高于上限的声强 人耳感觉疼痛 所以叫做该频率的疼痛阈 常见声音的分贝量级 2 声音的基本特征 1 声波信号的物理特征周期 T 声波的两个波峰或波谷之间的相对时间 频率 f 周期的倒数 f 1 T 即每秒波峰或波谷出现的次数 幅度 从声波信号的基线到波峰的距离 幅度越大声波的强度也越大 通常也用声压 声强或声功率来表示声音的强弱 人们感知到的声音特征称为心理学特征音调 由发声物体的振动频率决定 振动越快 即频率越大 音调越高 振动越慢 音调越低 音色 这是一个主观评价声音的量 声音的音色取决于声音的频谱结构 一般高次谐波越丰富 音色越明亮并具有穿透力 响度 人耳对声音强弱的感觉程度 主要取决于振幅和声压 通常振幅越大声音越响 其次人耳距离声源越远 声音越小 2 声音信号的心理学特征 3 声音质量的评价声音质量与带宽有关 频率范围越宽 声音质量越高 1 声音质量分级 按照声音信号的频率范围将声音质量分为5级 2 信噪比 SNR 即有用信号与噪音信号的强度之比 单位是分贝 3 声音质量的主观度量 主观度量就是大多数人对声音质量的感觉 3 音频信号的表示 1 音频信号 通过麦克风等设备转换成的电信号 规则音频信号 带有语音 音乐和音效的有规律的音频信号 承载了一定的信息 语音 语言的载体 有丰富的语言内涵 是人类交流的信息载体 音乐 是一种规范的符号化的声音 音效 自然界中各种声音效果 如掌声 雷鸣声 爆破声等 不规则音频信号 不包含任何信息的声音 比如噪声 2 音频信号的表示1 音频信号的数学表示 0 声音的基音 决定了音调的高低n 0 声音的泛音 决定了声音的音色An 声波的振幅 表示声音的强弱 2 音频信号的波形表示 3 音频信号的频谱表示声音信号的频率分布曲线 复杂的声音是由振幅和频率不同的正弦声波叠加而成的 这些正弦波的幅值按频率排列的图形就叫做频谱 男声的基频较低 低频分量更加丰富 因此听起来会更加低沉 浑厚 1 音频信号数字化声音信号在时间上是连续的 在幅度上也是连续的 属于模拟信号 1 采样声音信号在时间上的离散化 即每隔一段时间抽取一个信号样本 采样频率 每秒采样的次数 奈奎斯特理论 Nyquisttheory 采样频率不低于声音信号最高频率的两倍 这样就能把数字声音还原成原来的声音 称为无损数字化 fs 2fmax电话话音信号的最高频率约为3 4kHz 所以采样频率取为8kHz 2 1 2音频信号的数字化 声音信号在幅度上的离散化也就是采样过程中对每一个采样点的幅度值用数字量来表示 如果幅度的划分是等间隔的 称为线性量化 否则为非线性量化 采样精度 即量化的位数 位数越多量化等级数也越多 所能表示的声波幅度的动态范围也越大 当然需要的存储空间也越大 2 量化 3 编码就是用一组二进制码组来表示每一个有固定电平的量化值 或者说将量化值转换成二进制码组 典型的音频编码方法 脉冲编码调制法 PCM 4 数字音频的数据量数据量 采样频率 采样精度 采样时间 声道数 8 字节数 单声道 一次只产生一组声波数据 立体声 一次产生两组声波数据 例2 1计算一分钟未压缩的高保真立体声数字声音数据的大小 60 44100 16 2 8 10 09MB一首未经压缩的4分钟的歌曲文件的大小约为40MB 那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲 2 数字音频压缩标准 1 电话质量的语音压缩标准 2 调幅广播语音压缩标准G 722 3 宽带音频压缩标准 MPEG音频 第一个高保真立体声音频压缩的国际标准MPEG音频压缩标准提供三个独立的压缩层次 1 Layer1 编码器简单 输出数据率为384kb s 主要用于小型数字盒式磁带 2 Layer2 编码器较复杂 输出数据率为256kb s 192kb s 主要应用于数字广播声音 数字音乐 CD I和VCD等 3 Layer3 编码器复杂 输出数据率为64kb s 主要用于ISDN上的声音传输 1 WAV文件 波形文件 微软开发 需要的存储量大 多用于存储简短的声音片段和旁白 2 MIDI文件 记录的是生成音乐的指令 MIDI文件短小 由于MIDI记录的并不是真正的声音 所以不同的声卡 不同软波表 不同硬件音源的音色是不相同的 相同的MIDI文件在不同的设备上播放也会有不同的效果 MIDI文件适合作为背景音乐来播放 3 MP3文件 是MPEG音频第3层的简称 有损压缩 压缩比达12 1 MP3利用人耳的掩蔽特性 削减音频中人耳听不到的成分 同时尽可能地维持原来的声音质量 4 RA文件 属于RealMedia的音频部分 采用流式传输方式 可以在非常低的带宽下提供足够好的音质让用户能在线聆听 5 WMA文件 WindowsMedia的音频部分 无损压缩 支持多声道编码 6 AC3文件 又叫杜比数码环绕立体声 压缩比10 1 提供的环绕声系统由5个全频域声道和1个超低音声道组成 称为5 1声道 一般作为DVD的伴音 3 数字音频文件的格式 2 语音识别系统分类对说话人说话方式的要求孤立字 词 语音识别系统连接字语音识别系统连续语音识别系统 对说话人的依赖程度特定人语音识别系统非特定人语音识别系统词汇量大小小词汇量语音识别系统中等词汇量语音识别系统大词汇量语音识别系统无限词汇量语音识别系统 1 语音识别技术1 语音识别的发展50年代 Bell实验室实现了第一个可识别十个英文数字的语音识别系统 Audry系统 60年代 提出动态规划 DP 和线性预测分析技术 LP 70年代 提出了动态时间归正技术 实现了特定人孤立语音识别系统 90年代 开始进入实用阶段 2 1 3智能语音处理技术 利用计算机合成语音的技术 使计算机具有类似人的说话能力 语音合成的三个层次从文字到语音从概念到语音从意向到语音语音合成技术的特点清晰度 自然度 表现力 复杂度语音合成的应用文语转换 语音查询 2 语音合成技术 本小节介绍的要点Audition的安装Audition软件的功能Audition界面的组成声音文件的导入录音单轨状态下的编辑 2 2音频处理软件AdobeAudition 多轨状态下的编辑包络编辑效果控制消除人声多轨合成 混缩输出 一 Audition软件的界面组成 了解界面的各个组成部分及其作用重点声音文件的管理水平和垂直标尺的含义以及如何更改电平显示刻度 60dB 0dB补充 为什么数字音量的最大标记为0dB 1 单轨编辑模式 2 多轨编辑模式 二 音频信号的获取 1 直接导入文件2 提取视频文件中的音频部分VCD上的dat文件直接将扩展名改为mpg 2 0版可以直接打开 将mpg格式的视频利用格式工厂转换成mov格式 CS5 5 如何提取 沉默是金 mov 中的伴奏注意 左声道 伴奏 选取后复制到新文件即可提取伴奏 右声道 原唱 3 单轨状态下录音 1 录音前声卡的设置音频硬件设置注意控制录音电平 2 文件 新建音频文件 3 单击 录音 请观察自己录制的人声其左右声道的波形是否一样 Windows7下麦克风设置 麦克风音量设置 Win7下不能录音时 更改该选项 1 保存会话文件会话文件保存了导入的文件以及添加的效果 在多轨下的编排等信息 2 导入伴奏注意控制伴奏的音量 3 按下 R 轨道进入录音状态 4 单击 开始录音 4 多轨状态下录音 三 音频的编辑 1 单轨状态下 1 波形的选取注意 单独选择左声道或右声道 将其中一个声道锁定 2 波形的剪切 复制与粘贴注意 混合粘贴 3 波形的裁剪 删除注意 删除静音区 诊断面板 删除静默 4 波形的反转与倒转的区别反转 波形相位的反转前后反向 倒转 达到逆向播放的效果 2 多轨状态下 1 音量旋钮 可提升或降低当前轨道的音量大小一般降低背景音乐所在轨道的音量 提升旁白所在轨道的音量 2 声相旋钮 可控制声音在左耳与右耳之间的均衡输出 3 输入 默认为立体声 如果选择 无 则该轨道不能进行录音 4 输出 默认为主控 如果选择 无 则该轨道不会发出声音 相当于静音 1 工具的选择 移动工具 左键用于移动选中的波形片段 右键拖移可以移动或复制当前波形片段 剃刀工具 在单击处剪开波形 滑动工具 用于滑动选择想要的波形片段 例如有一个声音录制了30秒 现在截取了第10秒到第20秒的声音片段 那么利用滑动工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那10秒的声音 时间选择工具 左键选取波形片段 右键移动波形 框选 套索和笔刷工具 在单轨状态下单击工具栏左边的 频谱频率显示 按钮后将激活这些工具按钮 用于选取所要操作的频谱区域 污点修复工具 用于修复频谱信号 2 时间锁定锁定音频的绝对时间 只能在上下轨道上移动 不能左右移动 3 波纹删除 编辑 删除 Del 那么可以清除选中的波形片段 不影响该轨道上其他波形的位置 编辑 波纹删除 将选定的波形片段删除 同时该轨道上后续波形后自动前移 波纹删除 gap 把波形之间的空隙删除 四 包络编辑 包络编辑 其实就是控制声音属性变化的一种手段 1 音量包络控制音量变化的走势曲线 如控制声音的淡入淡出 2 声相包络控制声相变化的走势曲线 控制声音在左耳和右耳的均衡 五 EQ均衡 EQ均衡器用于调节声音的音色 不改变声音的音调 不同频率段声音的效果 效果 滤波与均衡 多轨下 显示EQ编辑窗口 改变音调 效果 时间 变调 伸缩与变调 童声处理 Helium男声 女声 RaisePitch女声 男声 LowPitch 六 效果器的应用 1 单轨状态下添加效果作用于选定的波形 如果不选 默认为全选 会改变波形 属于破坏性编辑 效果 调制 和声 即合奏 未加效果的声音加了效果的声音 预览即试听 2 多轨状态下添加效果作用于整个轨道上的所有波形片段 不立即改变波形 混缩输出时改变波形 输入 输出效果 EQ均衡 人声处理的一般步骤录音降噪标准化处理压限加混响 效果 恢复 降噪处理降低环境噪音 效果 幅度 标准化使音量达到最大不失真 效果 幅度 动态处理使幅度变化平缓 避免声音忽高忽低 效果 延迟效果 混响使声音更加丰满 2 3 1案例1 人声消除 1 采用效果器直接消除 效果 振幅与压限 声道混合器 效果 立体声声像 中置声道提取 选择预设 人声移除 2 将立体声转换为单声道 编辑 转换采样类型 比较未添加任何效果的人声消除添加了混响的人声消除思考为什么

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论