




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 多媒体技术应用 数学与计算机学院陈永强Email chenyqwh 2013 2014 2 2 第二章音频处理技术 2 1音频基本原理2 1 1人类听觉特性2 1 2数字音频2 1 3声音2 1 4语音2 2常用音频压缩标准2 2 1音频压缩基础2 2 2常用音频压缩标准2 2 3音频文件格式2 3音频处理软件Audition2 3 1功能介绍2 3 2编辑环境2 3 3基本操作 3 第二章音频处理技术 2 1音频基本原理2 1 1人类听觉特性2 1 2数字音频2 1 3声音2 1 4语音 4 近十年来 随着计算机技术的高速发展 以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用 数字音频已经广泛应用于因特网 多媒体及无线通信系统 CD品质的数字音频已经从根本上替代了模拟音频 因此 人们对音频信号数字化处理提出了越来越高的要求 相应软硬件实现手段的效率也在不断提高 5 2 1 1人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分 对于人类听力感知的研究 其范围从人耳的生理设计到大脑对听觉信息的解释 当前 大部分感知音频的编码算法都是基于心理声学模型的 6 2 1 1人类听觉特性1 听阈与听域2 音调3 响度和响度级4 绝对听觉门限5 临界频带6 同时掩蔽7 异时掩蔽8 感知熵 7 2 1 1人类听觉特性1 听阈与听域听阈 AuditoryThreshold 就是指人能听到的最低声压级 SoundPowerLevel SPL 听域 AudibleArea 是指人能感知的声音的范围 正常人耳能够感知的频率范围大致是20Hz 20kHz 正常人能感知声音的声压级范围是0 128dB 8 图2 1听阈 频率曲线 9 2 1 1人类听觉特性2 音调音调 Pitch 在物理学中是指声音的高低 实际上就是指人耳对不同频率声音的一种主观感受 音调主要由声音的频率决定 同时也与声音强度有关 频率高的声音 人感觉其音调也较高 反之 人感知音调低的声音其频率也低 对音调可以进行定量的判断 其度量单位为美 Mel 定义一个声压级为40dB 频率为1kHz的纯音的音调为1000Mel 10 2 1 1人类听觉特性3 响度和响度级响度 Loudness 是人耳感受声音强弱的主观感觉程度 这种感觉与音强 频率和波形都有关系 其度量单位为宋 Sone 定义一个声压级为40dB 频率为1kHz的纯音的响度为1Sone 响度级 LoudnessLevel 是指某响度与基准响度相比的等级 其度量单位为方 Phon 定义1kHz纯音的响度级为1Phon 11 图2 2人耳可听最小响度曲线 12 2 1 1人类听觉特性4 绝对听觉门限绝对听觉门限 AbsoluteThresholdofHearing ATH 指一个人在没有噪声的环境下 能够产生听觉 感知到一个纯音信号 某频率点 的最小能量幅度 绝对听觉门限用声压级表示 静音为0dB 痛阈为140dB 13 图2 3绝对听觉门限曲线 14 2 1 1人类听觉特性5 临界频带指一个纯音可以被以它为中心频率 并且具有一定频带宽度的连续噪声所掩蔽 在这一频带内噪声功率等于该纯音的功率 使该纯音处于刚能被听到的临界状态 即称这一带宽为临界频带宽度 临界频带的单位为巴克 Bark 15 2 1 1人类听觉特性6 同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时 响度较高的频率成分的存在会影响到对响度较低的频率成分的感知 当两个或更多的音频信号到达人内耳时 掩蔽声与被掩蔽声同时作用发生掩蔽效应 就称同时掩蔽 16 2 1 1人类听觉特性7 异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下 若掩蔽声音出现之前的一段时间内发生掩蔽效应 则称为超前掩蔽 否则称为滞后掩蔽 17 2 1 1人类听觉特性8 感知熵感知熵 PerceptualEntropy 指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息 一般以位 bit 作为单位 实际上表示了音频信号压缩的理论极限 18 2 1 2数字音频音频信号是时间和幅度都连续变化的一维模拟信号 要想在计算机中对它进行处理 就要将它变成时间和幅度都是离散的数字信号 所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号 其特点是保真度好 动态范围大 数字音频可分为波形声音 语音和音乐 波形声音实际上包含了所有的声音形式 因此数字音频有时也泛称为声音 19 2 1 2数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列 过程为 选择采样频率 即进行采样 选择分辨率 即进行量化 最后编码形成声音文件 声音的采样与量化如图所示 20 2 1 2数字音频1 采样采样 Sampling 指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取 再用若干位二进制数表示 对声音波形采样的频率直接影响声音的质量 采样频率越高 声音保真度越好 但所要求的数据存储量也越大 根据采样定理 当采样频率大于信号最高频率的两倍时 在采样过程中就不会丢失信息 并且可以用采样后的信号重构原始信号 从而不失真地还原出原始的声音信号 对于音频 最常用的采样频率有三种 44 1kHz 22 05kHz和11 025kHz 其中44 1kHz采样频率是最常用的 声道数是声音通道的个数 指一次采样的声音波形个数 21 2 1 2数字音频2 量化量化 Quantity 的目的是将采样后的信号波形的幅度值 样本 进行离散化处理 样本从模拟量转化成了数字量 量化位数越多 所得到的量化值越接近原始波形的采样值 量化方式有三种 零记忆量化 分组量化和序列量化 22 2 1 3声音声学是研究声音的学科 包括声波的产生 传播和接收 物体振动在弹性体里的传播称为波 而在空气中传播的波就称为声波 能被人的听觉器官所感觉到的声波叫声音 其频率一般在20Hz 20kHz之间 23 2 1 3声音声音的三要素是音调 音色和音强 音调是指声音的高低 音调与频率有关 音色是指具有特色的声音 音强是指声音的强度 也称为声音的响度 音强与声波的振幅成正比 24 2 1 3声音声音的质量简称音质 1 与采样频率有关 对于数字音频信号 音质的好坏与数据采样频率和数据位数有关 采样频率越低 位数越少 音质越差 2 与音频处理设备有关 音响放大器和扬声器的质量能够直接影响重放的质量 3 与信号噪声比有关 在录音时 音频信号幅度与噪声幅度的比值越大越好 否则声音被噪声干扰 会影响音质 25 2 1 3语音语音是一种特殊的媒体 语音是人类所特有的 但也是一种波形 在计算机中表示方式与波形声音的文件格式相同 语音处理的研究已经有一百多年的历史 其研究范围主要涉及 语音合成 语音编码 语音识别的基本算法和应用 计算机处理语音过程如图所示 26 图2 8计算机处理语音过程 27 第二章音频处理技术 2 2常用音频压缩标准2 2 1音频压缩基础2 2 2常用音频压缩标准2 2 3音频文件格式 28 2 2 1音频压缩基础1 数据压缩条件2 数据冗余3 数据压缩算法分类 29 2 2 1音频压缩基础1 数据压缩条件信号之所以能被压缩和编码 其原因主要是 1 数据冗余度2 人类不敏感因素3 信息传输与存储 30 2 2 1音频压缩基础2 数据冗余冗余是指信息所具有的各种性质中多余的无用空间 其多余的程度称为冗余度 信息量 数据量和冗余量之间的关系如下 式中 I表示信息量 D表示数据量 du表示冗余量 冗余量应在数据存储和传输之前去掉 31 2 2 1音频压缩基础2 数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等 32 2 2 1音频压缩基础2 数据冗余空间冗余 一幅图像表面上各采样点的颜色之间往往存在着空间连贯性 图像数据中经常存在的一种冗余 如规则物体和规则背景 像素相关性强 33 2 2 1音频压缩基础2 数据冗余时间冗余 视频和音频中存在的 在时间尺度上相关的一种冗余 如相邻帧之间像素的相关性 语音的连续和渐变过程 空间冗余和时间冗余 存在大量的统计特征重复 因此称为统计冗余 34 2 2 1音频压缩基础2 数据冗余结构冗余 有些图像存在着非常强的纹理结构 我们称它们在结构上存在冗余 例如 布纹图像和草席图像 35 2 2 1音频压缩基础2 数据冗余信息熵冗余 也称为编码冗余 是指数据所携带的信息量少于数据本身而反映出来的数据冗余 例如 自然界的很多状态不可能正好用2的整数次幂来表示 这样就会造成编码冗余 36 2 2 1音频压缩基础2 数据冗余知识冗余 举例 成语 人脸的图像有固定的结构 这类规律性的结构可由先验知识和背景知识得到 我们称此类冗余为知识冗余 37 2 2 1音频压缩基础3 数据压缩算法分类 图2 10数据压缩算法分类 38 2 2 1音频压缩基础3 数据压缩算法分类无损压缩 冗余压缩 熵编码 法 无损压缩法去掉或减少了数据中的冗余量 但这些冗余量是可以重新恢复的 因此 无损压缩是可逆的过程 例如 压缩软件WinRAR应用 注意 无损压缩特点是压缩比小 无损压缩法不会产生失真 在多媒体技术中一般用于文本数据的压缩 常见的例子是磁盘压缩 39 2 2 1音频压缩基础3 数据压缩算法分类有损压缩 熵压缩 法 有损压缩减少了信息量 而这些损失信息量是不能再恢复的 因此 有损压缩法是不可逆的 例如 视 听觉等冗余 由于人的感觉对某些失真不易觉察的生理特征 决定了在某些场合可以减少信息量 注意 有损压缩特点是压缩比大 但不可逆 40 2 2 2常用音频压缩标准1 G 71164Kb s脉冲编码调制 PCM 2 G 721自适应差分脉冲编码调制 ADPCM 3 G 7227kHz声音编码器4 G 723双速率语音编码器5 G 72816Kb s低延迟码激励线性预测编码 LD CELP 6 G 729语音编码器7 MPEG 1音频编码8 AC音频编码9 空间音频编码10 移动音频编码 41 2 2 2常用音频压缩标准1 G 71164Kb s脉冲编码调制 PCM 脉冲编码调制 PulseCodeModulation PCM 是ITU制定出来的一套语音压缩标准 主要用于电话 1972年 CCITT对一个64Kb s压扩型PCM编码器做了标准化 称为G 711 这个标准主要有两种压缩算法 在北美和日本 使用 律PCM 而世界其他国家使用A律PCM G 711在64Kb s速率话音质量能够达到网络等级 目前已广泛应用于各种数字通信系统中 如电缆 微波 卫星 光缆等 42 2 2 2常用音频压缩标准2 G 721自适应差分脉冲编码调制 ADPCM 自适应差分脉冲编码调制 AdaptiveDifferentialPulseCodeModulation ADPCM 在PCM的基础上进行改进 进一步利用了语音信号样点间的相关性 并针对语音信号的非平稳特点 使用了自适应预测和自适应量化1984年 CCITT首先对32Kb sADPCM做了标准化 称为G 721 G 721于1986年根据两年间运行中出现的一些问题 做了进一步修正 又重新标准化 43 2 2 2常用音频压缩标准3 G 7227kHz声音编码器1988年 正式通过关于 用64Kb s或低于此编码速率的7kHz音频信号编码器 的标准 称为G 722 G 722的主要目标是保持64Kb s的数据率 而音频信号的质量要明显高于G 711的质量 44 2 2常用音频压缩标准4 G 723双速率语音编码器G 723是在1996年制定的一种多媒体语音编解码标准 G 723标准传输码率有5 3Kb s和6 3Kb s两种 在编程过程中可随时切换 45 2 2 2常用音频压缩标准5 G 72816Kb s低延迟码激励线性预测编码 LD CELP G 728的工作进程是从1988年开始的 试图建立通用的16Kb s长话质量的语音编码标准 G 728开始是按照浮点CELP编码算法规定的 1994年完成了按照严格定点规定的算法 46 2 2 2常用音频压缩标准6 G 729语音编码器在1996年3月 ITU T的第15研究小组提出8Kb s的语音编码协议 称为G 729 G 729标准使用的算法是共轭结构的代数码本激励线性预测 CS ACELP 它基于CELP编码模型 47 2 2 2常用音频压缩标准7 MPEG 1音频编码MPEG 1音频编码作为MPEG标准的一部分 对应于ISO IEC11172 3 规定了高质量音频编码方法 存储表示和解码方法 48 2 2 2常用音频压缩标准8 AC音频编码杜比实验室在1987年第一次将数字编码技术引入到HDTV的开发中 即AC 1标准 1990年杜比实验室又推出了立体声编码标准AC 2 1994年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统DolbySurroundAudioCoding 3 简称为AC 3 49 2 2 2常用音频压缩标准9 空间音频编码随着人类听觉研究在空间心理声学 认知心理学等学科的不断深入 出现了将人类空间方位感知参数引入音频压缩编码技术的研究 空间音频编码 SpatialAudioCoding SAC 通过将空间线索 SpatialCues 参数引入到音频压缩编码算法中 即所谓的参数立体声 ParametricStereo PS 技术 分析声道间冗余信息量 采用立体声参数提取的联合声道编码模式 取代传统的声道分离编码模式 可以降低近50 的编码码率 使空间成为数字音频编码技术的有效组成部分 50 2 2 2常用音频压缩标准10 移动音频编码在移动通信系统中采用混合压缩编码 可以根据需要动态调整编码码率 在合成音频质量 系统空间中取得平衡 最大限度地发挥系统的效能 3GPP将AMR WB 和EAAC 两种编码标准用于第三代移动网络中的多媒体服务 51 52 2 2 3音频文件格式1 波形格式2 MIDI格式3 MP3压缩格式4 几种流式音频格式 53 2 2 3音频文件格式1 波形格式WAV是MicrosoftWindows本身提供的音频格式 用 wav作为扩展名 其文件格式称为波形文件格式 WaveFileFormat 在多媒体编程接口和数据规范1 0 MultimediaProgrammingInterfaceandDataSpecifications1 0 文档中有详细的描述 54 2 2 3音频文件格式2 MIDI格式电子乐器数字接口 MusicalInstrumentDigitalInterface MIDI 是用于在音乐合成器 MusicSynthesizers 乐器 MusicalInstruments 和计算机之间交换音乐信息 播放和录制音乐的一种标准协议 55 2 2 3音频文件格式3 MP3压缩格式MP3全称是MPEG 1Layer3音频文件 是MPEG 1标准中的声音部分 也叫MPEG音频层 MPEG音频层根据压缩质量和编码复杂程度划分为三层 即Layer1 Layer2 Layer3 分别对应MP1 MP2 MP3这三种声音文件 56 2 2 3音频文件格式4 几种流式音频格式现在使用最普遍的流格式类型是RealNetworks公司发明的支持网络流媒体技术的实时音频格式 RA RMA这两个文件类型就是RealMedia的音频格式 57 第二章音频处理技术 2 3音频处理软件Audition2 3 1功能介绍2 3 2编辑环境2 3 3基本操作 58 Audition软件是Adobe公司推出的一款完整的 应用于Windows系统的PC上的多音轨音频工作站 该软件前身称为CoolEdit Adobe公司在2003年5月从SyntrilliumSoftware公司成功购买后将其更名为Audition 59 2 3 1功能介绍AdobeAudition3 0是一款功能强大的 专业级的音乐编辑软件 能高质量地完成高级混音 编辑 控制 合成和特效处理 允许用户编辑个性化的音频文件 创建循环 引进了45个以上的DSP特效以及高达128个音轨 AdobeAudition拥有集成的多音轨和编辑视图 实时特效 环绕支持 分析工具 恢复特性和视频支持等功能 为音乐 视频 音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案 AdobeAudition提供了直觉的 客户化的界面 允许用户删减和调整窗口的大小 创建一个高效率的音频工作范围 60 2 3 2编辑环境Audition提供了三种专业的工作视图界面 包括 编辑视图 EditView 多轨视图 MultitrackView CD视图 CDView 61 图2 16多轨视图界面 62 图2 17单轨视图界面 63 图2 23CD视图 64 2 3 3基本操作1 单轨视图 1 打开或创建一个音频文件 2 编辑音频 3 保存更改 65 2 3 3基本操作2 多轨视图 1 打开或创建一个音频文件 2 插入或录制音频文件 3 施加效果 4 混合轨道 5 输出 66 推荐多媒体软件认证考试1 全国计算机信息高新技术考试 CITT 考试名称 劳动和社会保障部全国计算机信息高新技术考试 全
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 血液透析室医院感染管理试题(附答案)
- 2025网签版自然人借款合同范本
- 大学法律顾问合同模板5篇
- 2008年语文高考试卷及答案
- Unit 1 同步主题阅读(原卷版)
- 生命科学模拟习题(含参考答案)
- 车工(数控床)高级工模拟题(附答案)
- 循环系统疾病病人的护理模拟练习题与答案
- 2025FOB国际合同样本
- 人员招聘与录用考试试题及答案
- GB/T 11376-1997金属的磷酸盐转化膜
- FZ/T 64012.2-2001水刺法非织造布第2部分:卫生用卷材
- SCI论文的写作与发表课件
- 印刷产品检验报告
- 2022年贵州省人民医院医护人员招聘笔试试题及答案解析
- “数学悖论”-辛普森悖论
- 医疗器械临床试验GCP三套考试题
- 烧结岗位安全操作培训-PPT课件
- 【课件】1.2 点线传情——造型元素之点线面 课件-2021-2022学年高中美术人美版(2019)选修绘画
- 运动处方(课堂PPT)
- 物资储备与物流方案
评论
0/150
提交评论