版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章音频信息处理2.1音频处理基础本节要点声音的基本特征音频的数字化数字音频文件格式数字音频处理技术1ppt课件问题模拟声音与数字声音的区别是什么?声音的质量由什么来决定?声音的音调与音色分别由什么来决定?常见的声音格式有哪些?各自有什么特点?单声道与立体声的区别是什么?如何互相转换?2ppt课件
1.声波
(1)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。
(2)声源:产生声波的物体,如人的声带和乐器等。
(3)声音:人的听觉系统所能感知到的声波。
音频的频率范围:20Hz~20000Hz
语音的频率范围:300Hz~3000Hz
次声波的频率范围:<20Hz
超声波的频率范围:
>20kHz(4)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。
下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈;
上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的疼痛阈。3ppt课件常见声音的分贝量级2.声音的基本特征(1)声波信号的物理特征
周期(T):声波的两个波峰或波谷之间的相对时间。频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。
幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。4ppt课件
人们感知到的声音特征称为心理学特征音调:由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。
音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。
响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。(2)声音信号的心理学特征5ppt课件
(3)声音质量的评价
声音质量与带宽有关,频率范围越宽,声音质量越高。1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。2)信噪比(SNR):即有用信号与噪音信号的强度之比,单位是分贝。3)声音质量的主观度量:主观度量就是大多数人对声音质量的感觉。6ppt课件3.音频信号的表示(1)音频信号:通过麦克风等设备转换成的电信号。规则音频信号:带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。
语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。
音乐:是一种规范的符号化的声音。
音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。不规则音频信号:不包含任何信息的声音,比如噪声。(2)音频信号的表示
1)音频信号的数学表示ω0:声音的基音,决定了音调的高低nω0:声音的泛音,决定了声音的音色An:声波的振幅,表示声音的强弱7ppt课件2)音频信号的波形表示3)音频信号的频谱表示
声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。8ppt课件1.音频信号数字化
声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。
(1)采样
声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。采样频率:每秒采样的次数。奈奎斯特理论(Nyquisttheory):采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。
fs>=2fmax
电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。2.1.2音频信号的数字化9ppt课件
声音信号在幅度上的离散化
也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。
(2)量化10ppt课件(3)编码就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法(PCM)。(4)数字音频的数据量
数据量=采样频率*采样精度*采样时间*声道数/8(字节数)
单声道:一次只产生一组声波数据
立体声:一次产生两组声波数据例2.1
计算一分钟未压缩的高保真立体声数字声音数据的大小。
60*(44100*16*2)/8=10.09MB
一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为4GB的MP3播放器可存放100首这样的歌曲。11ppt课件2.数字音频压缩标准(1)电话质量的语音压缩标准(2)调幅广播语音压缩标准
G.722(3)宽带音频压缩标准
MPEG音频:第一个高保真立体声音频压缩的国际标准
MPEG音频压缩标准提供三个独立的压缩层次:1)Layer1:编码器简单,输出数据率为384kb/s,主要用于小型数字盒式磁带。2)Layer2:编码器较复杂,输出数据率为256kb/s~192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3)Layer3:编码器复杂,输出数据率为64kb/s,主要用于ISDN(综合业务数字网,一种数字电话网的国际标准)上的声音传输。12ppt课件1.WAV文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。2.MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3.MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4.RA文件:属于RealMedia的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5.WMA文件:WindowsMedia的音频部分。无损压缩,支持多声道编码。6.AC3文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1个超低音声道组成,称为5.1声道,一般作为DVD的伴音。3.数字音频文件的格式13ppt课件2)语音识别系统分类对说话人说话方式的要求孤立字(词)语音识别系统连接字语音识别系统连续语音识别系统。对说话人的依赖程度特定人语音识别系统非特定人语音识别系统词汇量大小小词汇量语音识别系统中等词汇量语音识别系统大词汇量语音识别系统无限词汇量语音识别系统。(1)语音识别技术1)语音识别的发展50年代:Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。60年代:提出动态规划(DP)和线性预测分析技术(LP)。70年代:提出了动态时间归正技术,实现了特定人孤立语音识别系统。90年代:开始进入实用阶段。2.1.3智能语音处理技术14ppt课件
利用计算机合成语音的技术,使计算机具有类似人的说话能力。语音合成的三个层次从文字到语音从概念到语音从意向到语音语音合成技术的特点清晰度、自然度、表现力、复杂度语音合成的应用文语转换、语音查询(2)语音合成技术15ppt课件本小节介绍的要点Audition软件的功能Audition界面的组成声音文件的导入录音单轨状态下的编辑2.2音频处理软件AdobeAudition
多轨状态下的编辑包络编辑效果控制消除人声多轨合成,混缩输出16ppt课件一Audition软件的界面组成
了解界面的各个组成部分及其作用1.单轨编辑模式17ppt课件2.多轨编辑模式
18ppt课件问题无法录音与播放(编辑/首选项/常规/确定)Win7或win8环境下,提示采样频率不一致,无法校正怎么办?(麦克风的高级属性设置)声音处理软件中最大音量为什么是0dB?
人耳对声音大小的感知程度与表示声音的电平大小成对数关系(而非线性关系)dB=20log(vx/v0)Audition中如何更改音调?如何调节音色?如何提取背景音乐?19ppt课件问题录制旁白需注意哪些方面?录制时说错的地方如何处理?哪个补救方法最好?录制的声音有噪音,用什么方法去解决,哪个效果最好?旁白的后期加工步骤一般有哪些?旁白与背景音乐合成时需注意什么?多段声音切换时需注意什么?合成的采样频率与波形的采样频率不一致时会如何处理,需要注意什么?20ppt课件二音频信号的获取1.直接导入文件
2.提取视频文件中的音频部分
VCD上的dat文件直接将扩展名改为mpg(2.0版可以直接打开)
将mpg格式的视频利用格式工厂转换成mov格式(CS5.5)
如何提取CD中的伴奏“沉默是金”左声道:伴奏
右声道:原唱“梁祝”左声道:原唱
右声道:伴奏21ppt课件
3.单轨状态下录音(1)录音前声卡的设置
音频硬件设置
注意控制录音电平Windows7下麦克风的设置22ppt课件麦克风音量设置
Win7下不能录音时,更改该选项,重启Audition,新建音频文件与该设置一致即可录音,以后录音则无需一致23ppt课件(2)“文件|新建音频文件(3)单击“录音”请观察自己录制的人声其左右声道的波形是否一样?24ppt课件(1)保存会话文件
会话文件保存了导入的文件以及添加的效果,在多轨下的编排等信息。
(2)导入伴奏
注意控制伴奏的音量(3)按下“R”,轨道进入录音状态(4)单击“
”开始录音4.多轨状态下录音25ppt课件补充:穿插录音穿插录音:用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声音片段;2、按下轨道左边的“R”处于按下状态;3、定位好时间线,点按“录音”按钮,选定的片段自动变成静音,只有选取的片段会进行录音,其他部分的波形不会改变。选择要重新录音的片段,定位时间线,点按录音按钮26ppt课件三音频的编辑1.单轨状态下(1)波形的选取
注意:单独选择左声道或右声道(将其中一个声道锁定)(2)波形的剪切、复制与粘贴注意:混合粘贴(3)波形的裁剪、删除注意:删除静音区(诊断面板|删除静默)(4)波形的反转与倒转的区别反转:波形相位的反转前后反向(倒转):达到逆向播放的效果27ppt课件2.多轨状态下(1)音量旋钮:可提升或降低当前轨道的音量大小一般降低背景音乐所在轨道的音量,提升旁白所在轨道的音量(2)声相旋钮:可控制声音在左耳与右耳之间的均衡输出(3)输入:默认为立体声,如果选择“无”,则该轨道不能进行录音(4)输出:默认为主控,如果选择“无”,则该轨道不会发出声音,相当于静音28ppt课件(1)工具的选择
移动工具:左键用于移动选中的波形片段,右键拖移可以移动或复制当前波形片段。
剃刀工具:在单击处剪开波形。滑动工具:用于滑动选择想要的波形片段。
例如有一个声音录制了30秒,现在截取了第10秒到第20秒的声音片段,那么利用滑动工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那10秒的声音。
时间选择工具:左键选取波形片段,右键移动波形。
框选、套索和笔刷工具:在单轨状态下单击工具栏左边的
(频谱频率显示)按钮后将激活这些工具按钮,用于选取所要操作的频谱区域。
污点修复工具:用于修复频谱信号(一般是不到4秒的劣音,如咔哒声,破音等)。29ppt课件(2)时间锁定锁定音频的绝对时间,只能在上下轨道上移动,不能左右移动(3)波纹删除
“编辑|删除(Del)”:那么可以清除选中的波形片段,不影响该轨道上其他波形的位置;
“编辑|波纹删除”:将选定的波形片段删除,同时该轨道上后续波形后自动前移;
“波纹删除|gap”,把波形之间的空隙删除;30ppt课件四包络编辑
包络编辑:其实就是控制声音属性变化的一种手段(1)音量包络
控制音量变化的走势曲线,如控制声音的淡入淡出(2)声相包络
控制声相变化的走势曲线,控制声音在左耳和右耳的均衡31ppt课件五EQ均衡EQ均衡器用于调节声音的音色,不改变声音的音调。不同频率段声音的效果32ppt课件“效果|滤波与均衡”多轨下,显示EQ编辑窗口33ppt课件改变音调“效果|时间/变调|
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京市单招职业适应性测试题库含答案详解(巩固)
- 2026年内蒙古能源职业学院单招职业适应性考试题库含答案详解(巩固)
- 2026年北海康养职业学院单招职业倾向性考试题库及答案详解(网校专用)
- 2026年包头钢铁职业技术学院单招职业技能测试题库带答案详解
- 2026年保定职业技术学院单招职业倾向性测试题库附答案详解(培优a卷)
- 2026年南阳工艺美术职业学院单招职业适应性测试题库带答案详解(基础题)
- 2026年内蒙古建筑职业技术学院单招职业倾向性考试题库及完整答案详解1套
- 2026年内蒙古锡林郭勒盟单招职业适应性考试题库附答案详解
- 2026年六盘水职业技术学院单招职业倾向性测试题库附答案详解(典型题)
- 2026年冀中职业学院单招职业技能考试题库附答案详解(完整版)
- 设备制造工程质量管理体系及保证措施
- 2025年春八年级下册历史上课课件 第二单元整体设计
- 中国兽药典三部 2020年版
- 电仪部管理制度
- 2025年中国远洋渔业行业市场全景监测及投资战略咨询报告
- 2025四川省安全员《C证》考试题库及答案
- 《经典常谈》读后感800字
- 纪检监察审查调查业务培训
- 2025年宝山区区属国有(集体)企业招聘笔试参考题库含答案解析
- MOOC 中医与辨证-暨南大学 中国大学慕课答案
- 2024初中英语沪教版单词表默写版(七-九年级)中考复习必备
评论
0/150
提交评论