多媒体技术应用2音频处理技术(陈永强).ppt

上传人：x*** IP属地：四川上传时间：2020-03-25 格式：PPT 页数：77 大小：4.24MB 积分：15 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 多媒体技术应用数学与计算机学院陈永强Email chenyqwh 2013 2014 2 2 第二章音频处理技术 2 1音频基本原理2 1 1人类听觉特性2 1 2数字音频2 1 3声音2 1 4语音2 2常用音频压缩标准2 2 1音频压缩基础2 2 2常用音频压缩标准2 2 3音频文件格式2 3音频处理软件Audition2 3 1功能介绍2 3 2编辑环境2 3 3基本操作 3 第二章音频处理技术 2 1音频基本原理2 1 1人类听觉特性2 1 2数字音频2 1 3声音2 1 4语音 4 近十年来随着计算机技术的高速发展以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用数字音频已经广泛应用于因特网多媒体及无线通信系统 CD品质的数字音频已经从根本上替代了模拟音频因此人们对音频信号数字化处理提出了越来越高的要求相应软硬件实现手段的效率也在不断提高 5 2 1 1人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分对于人类听力感知的研究其范围从人耳的生理设计到大脑对听觉信息的解释当前大部分感知音频的编码算法都是基于心理声学模型的 6 2 1 1人类听觉特性1 听阈与听域2 音调3 响度和响度级4 绝对听觉门限5 临界频带6 同时掩蔽7 异时掩蔽8 感知熵 7 2 1 1人类听觉特性1 听阈与听域听阈 AuditoryThreshold 就是指人能听到的最低声压级 SoundPowerLevel SPL 听域 AudibleArea 是指人能感知的声音的范围正常人耳能够感知的频率范围大致是20Hz 20kHz 正常人能感知声音的声压级范围是0 128dB 8 图2 1听阈频率曲线 9 2 1 1人类听觉特性2 音调音调 Pitch 在物理学中是指声音的高低实际上就是指人耳对不同频率声音的一种主观感受音调主要由声音的频率决定同时也与声音强度有关频率高的声音人感觉其音调也较高反之人感知音调低的声音其频率也低对音调可以进行定量的判断其度量单位为美 Mel 定义一个声压级为40dB 频率为1kHz的纯音的音调为1000Mel 10 2 1 1人类听觉特性3 响度和响度级响度 Loudness 是人耳感受声音强弱的主观感觉程度这种感觉与音强频率和波形都有关系其度量单位为宋 Sone 定义一个声压级为40dB 频率为1kHz的纯音的响度为1Sone 响度级 LoudnessLevel 是指某响度与基准响度相比的等级其度量单位为方 Phon 定义1kHz纯音的响度级为1Phon 11 图2 2人耳可听最小响度曲线 12 2 1 1人类听觉特性4 绝对听觉门限绝对听觉门限 AbsoluteThresholdofHearing ATH 指一个人在没有噪声的环境下能够产生听觉感知到一个纯音信号某频率点的最小能量幅度绝对听觉门限用声压级表示静音为0dB 痛阈为140dB 13 图2 3绝对听觉门限曲线 14 2 1 1人类听觉特性5 临界频带指一个纯音可以被以它为中心频率并且具有一定频带宽度的连续噪声所掩蔽在这一频带内噪声功率等于该纯音的功率使该纯音处于刚能被听到的临界状态即称这一带宽为临界频带宽度临界频带的单位为巴克 Bark 15 2 1 1人类听觉特性6 同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时响度较高的频率成分的存在会影响到对响度较低的频率成分的感知当两个或更多的音频信号到达人内耳时掩蔽声与被掩蔽声同时作用发生掩蔽效应就称同时掩蔽 16 2 1 1人类听觉特性7 异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下若掩蔽声音出现之前的一段时间内发生掩蔽效应则称为超前掩蔽否则称为滞后掩蔽 17 2 1 1人类听觉特性8 感知熵感知熵 PerceptualEntropy 指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息一般以位 bit 作为单位实际上表示了音频信号压缩的理论极限 18 2 1 2数字音频音频信号是时间和幅度都连续变化的一维模拟信号要想在计算机中对它进行处理就要将它变成时间和幅度都是离散的数字信号所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号其特点是保真度好动态范围大数字音频可分为波形声音语音和音乐波形声音实际上包含了所有的声音形式因此数字音频有时也泛称为声音 19 2 1 2数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列过程为选择采样频率即进行采样选择分辨率即进行量化最后编码形成声音文件声音的采样与量化如图所示 20 2 1 2数字音频1 采样采样 Sampling 指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取再用若干位二进制数表示对声音波形采样的频率直接影响声音的质量采样频率越高声音保真度越好但所要求的数据存储量也越大根据采样定理当采样频率大于信号最高频率的两倍时在采样过程中就不会丢失信息并且可以用采样后的信号重构原始信号从而不失真地还原出原始的声音信号对于音频最常用的采样频率有三种 44 1kHz 22 05kHz和11 025kHz 其中44 1kHz采样频率是最常用的声道数是声音通道的个数指一次采样的声音波形个数 21 2 1 2数字音频2 量化量化 Quantity 的目的是将采样后的信号波形的幅度值样本进行离散化处理样本从模拟量转化成了数字量量化位数越多所得到的量化值越接近原始波形的采样值量化方式有三种零记忆量化分组量化和序列量化 22 2 1 3声音声学是研究声音的学科包括声波的产生传播和接收物体振动在弹性体里的传播称为波而在空气中传播的波就称为声波能被人的听觉器官所感觉到的声波叫声音其频率一般在20Hz 20kHz之间 23 2 1 3声音声音的三要素是音调音色和音强音调是指声音的高低音调与频率有关音色是指具有特色的声音音强是指声音的强度也称为声音的响度音强与声波的振幅成正比 24 2 1 3声音声音的质量简称音质 1 与采样频率有关对于数字音频信号音质的好坏与数据采样频率和数据位数有关采样频率越低位数越少音质越差 2 与音频处理设备有关音响放大器和扬声器的质量能够直接影响重放的质量 3 与信号噪声比有关在录音时音频信号幅度与噪声幅度的比值越大越好否则声音被噪声干扰会影响音质 25 2 1 3语音语音是一种特殊的媒体语音是人类所特有的但也是一种波形在计算机中表示方式与波形声音的文件格式相同语音处理的研究已经有一百多年的历史其研究范围主要涉及语音合成语音编码语音识别的基本算法和应用计算机处理语音过程如图所示 26 图2 8计算机处理语音过程 27 第二章音频处理技术 2 2常用音频压缩标准2 2 1音频压缩基础2 2 2常用音频压缩标准2 2 3音频文件格式 28 2 2 1音频压缩基础1 数据压缩条件2 数据冗余3 数据压缩算法分类 29 2 2 1音频压缩基础1 数据压缩条件信号之所以能被压缩和编码其原因主要是 1 数据冗余度2 人类不敏感因素3 信息传输与存储 30 2 2 1音频压缩基础2 数据冗余冗余是指信息所具有的各种性质中多余的无用空间其多余的程度称为冗余度信息量数据量和冗余量之间的关系如下式中 I表示信息量 D表示数据量 du表示冗余量冗余量应在数据存储和传输之前去掉 31 2 2 1音频压缩基础2 数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等 32 2 2 1音频压缩基础2 数据冗余空间冗余一幅图像表面上各采样点的颜色之间往往存在着空间连贯性图像数据中经常存在的一种冗余如规则物体和规则背景像素相关性强 33 2 2 1音频压缩基础2 数据冗余时间冗余视频和音频中存在的在时间尺度上相关的一种冗余如相邻帧之间像素的相关性语音的连续和渐变过程空间冗余和时间冗余存在大量的统计特征重复因此称为统计冗余 34 2 2 1音频压缩基础2 数据冗余结构冗余有些图像存在着非常强的纹理结构我们称它们在结构上存在冗余例如布纹图像和草席图像 35 2 2 1音频压缩基础2 数据冗余信息熵冗余也称为编码冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余例如自然界的很多状态不可能正好用2的整数次幂来表示这样就会造成编码冗余 36 2 2 1音频压缩基础2 数据冗余知识冗余举例成语人脸的图像有固定的结构这类规律性的结构可由先验知识和背景知识得到我们称此类冗余为知识冗余 37 2 2 1音频压缩基础3 数据压缩算法分类图2 10数据压缩算法分类 38 2 2 1音频压缩基础3 数据压缩算法分类无损压缩冗余压缩熵编码法无损压缩法去掉或减少了数据中的冗余量但这些冗余量是可以重新恢复的因此无损压缩是可逆的过程例如压缩软件WinRAR应用注意无损压缩特点是压缩比小无损压缩法不会产生失真在多媒体技术中一般用于文本数据的压缩常见的例子是磁盘压缩 39 2 2 1音频压缩基础3 数据压缩算法分类有损压缩熵压缩法有损压缩减少了信息量而这些损失信息量是不能再恢复的因此有损压缩法是不可逆的例如视听觉等冗余由于人的感觉对某些失真不易觉察的生理特征决定了在某些场合可以减少信息量注意有损压缩特点是压缩比大但不可逆 40 2 2 2常用音频压缩标准1 G 71164Kb s脉冲编码调制 PCM 2 G 721自适应差分脉冲编码调制 ADPCM 3 G 7227kHz声音编码器4 G 723双速率语音编码器5 G 72816Kb s低延迟码激励线性预测编码 LD CELP 6 G 729语音编码器7 MPEG 1音频编码8 AC音频编码9 空间音频编码10 移动音频编码 41 2 2 2常用音频压缩标准1 G 71164Kb s脉冲编码调制 PCM 脉冲编码调制 PulseCodeModulation PCM 是ITU制定出来的一套语音压缩标准主要用于电话 1972年 CCITT对一个64Kb s压扩型PCM编码器做了标准化称为G 711 这个标准主要有两种压缩算法在北美和日本使用律PCM 而世界其他国家使用A律PCM G 711在64Kb s速率话音质量能够达到网络等级目前已广泛应用于各种数字通信系统中如电缆微波卫星光缆等 42 2 2 2常用音频压缩标准2 G 721自适应差分脉冲编码调制 ADPCM 自适应差分脉冲编码调制 AdaptiveDifferentialPulseCodeModulation ADPCM 在PCM的基础上进行改进进一步利用了语音信号样点间的相关性并针对语音信号的非平稳特点使用了自适应预测和自适应量化1984年 CCITT首先对32Kb sADPCM做了标准化称为G 721 G 721于1986年根据两年间运行中出现的一些问题做了进一步修正又重新标准化 43 2 2 2常用音频压缩标准3 G 7227kHz声音编码器1988年正式通过关于用64Kb s或低于此编码速率的7kHz音频信号编码器的标准称为G 722 G 722的主要目标是保持64Kb s的数据率而音频信号的质量要明显高于G 711的质量 44 2 2常用音频压缩标准4 G 723双速率语音编码器G 723是在1996年制定的一种多媒体语音编解码标准 G 723标准传输码率有5 3Kb s和6 3Kb s两种在编程过程中可随时切换 45 2 2 2常用音频压缩标准5 G 72816Kb s低延迟码激励线性预测编码 LD CELP G 728的工作进程是从1988年开始的试图建立通用的16Kb s长话质量的语音编码标准 G 728开始是按照浮点CELP编码算法规定的 1994年完成了按照严格定点规定的算法 46 2 2 2常用音频压缩标准6 G 729语音编码器在1996年3月 ITU T的第15研究小组提出8Kb s的语音编码协议称为G 729 G 729标准使用的算法是共轭结构的代数码本激励线性预测 CS ACELP 它基于CELP编码模型 47 2 2 2常用音频压缩标准7 MPEG 1音频编码MPEG 1音频编码作为MPEG标准的一部分对应于ISO IEC11172 3 规定了高质量音频编码方法存储表示和解码方法 48 2 2 2常用音频压缩标准8 AC音频编码杜比实验室在1987年第一次将数字编码技术引入到HDTV的开发中即AC 1标准 1990年杜比实验室又推出了立体声编码标准AC 2 1994年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统DolbySurroundAudioCoding 3 简称为AC 3 49 2 2 2常用音频压缩标准9 空间音频编码随着人类听觉研究在空间心理声学认知心理学等学科的不断深入出现了将人类空间方位感知参数引入音频压缩编码技术的研究空间音频编码 SpatialAudioCoding SAC 通过将空间线索 SpatialCues 参数引入到音频压缩编码算法中即所谓的参数立体声 ParametricStereo PS 技术分析声道间冗余信息量采用立体声参数提取的联合声道编码模式取代传统的声道分离编码模式可以降低近50 的编码码率使空间成为数字音频编码技术的有效组成部分 50 2 2 2常用音频压缩标准10 移动音频编码在移动通信系统中采用混合压缩编码可以根据需要动态调整编码码率在合成音频质量系统空间中取得平衡最大限度地发挥系统的效能 3GPP将AMR WB 和EAAC 两种编码标准用于第三代移动网络中的多媒体服务 51 52 2 2 3音频文件格式1 波形格式2 MIDI格式3 MP3压缩格式4 几种流式音频格式 53 2 2 3音频文件格式1 波形格式WAV是MicrosoftWindows本身提供的音频格式用 wav作为扩展名其文件格式称为波形文件格式 WaveFileFormat 在多媒体编程接口和数据规范1 0 MultimediaProgrammingInterfaceandDataSpecifications1 0 文档中有详细的描述 54 2 2 3音频文件格式2 MIDI格式电子乐器数字接口 MusicalInstrumentDigitalInterface MIDI 是用于在音乐合成器 MusicSynthesizers 乐器 MusicalInstruments 和计算机之间交换音乐信息播放和录制音乐的一种标准协议 55 2 2 3音频文件格式3 MP3压缩格式MP3全称是MPEG 1Layer3音频文件是MPEG 1标准中的声音部分也叫MPEG音频层 MPEG音频层根据压缩质量和编码复杂程度划分为三层即Layer1 Layer2 Layer3 分别对应MP1 MP2 MP3这三种声音文件 56 2 2 3音频文件格式4 几种流式音频格式现在使用最普遍的流格式类型是RealNetworks公司发明的支持网络流媒体技术的实时音频格式 RA RMA这两个文件类型就是RealMedia的音频格式 57 第二章音频处理技术 2 3音频处理软件Audition2 3 1功能介绍2 3 2编辑环境2 3 3基本操作 58 Audition软件是Adobe公司推出的一款完整的应用于Windows系统的PC上的多音轨音频工作站该软件前身称为CoolEdit Adobe公司在2003年5月从SyntrilliumSoftware公司成功购买后将其更名为Audition 59 2 3 1功能介绍AdobeAudition3 0是一款功能强大的专业级的音乐编辑软件能高质量地完成高级混音编辑控制合成和特效处理允许用户编辑个性化的音频文件创建循环引进了45个以上的DSP特效以及高达128个音轨 AdobeAudition拥有集成的多音轨和编辑视图实时特效环绕支持分析工具恢复特性和视频支持等功能为音乐视频音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案 AdobeAudition提供了直觉的客户化的界面允许用户删减和调整窗口的大小创建一个高效率的音频工作范围 60 2 3 2编辑环境Audition提供了三种专业的工作视图界面包括编辑视图 EditView 多轨视图 MultitrackView CD视图 CDView 61 图2 16多轨视图界面 62 图2 17单轨视图界面 63 图2 23CD视图 64 2 3 3基本操作1 单轨视图 1 打开或创建一个音频文件 2 编辑音频 3 保存更改 65 2 3 3基本操作2 多轨视图 1 打开或创建一个音频文件 2 插入或录制音频文件 3 施加效果 4 混合轨道 5 输出 66 推荐多媒体软件认证考试1 全国计算机信息高新技术考试 CITT 考试名称劳动和社会保障部全国计算机信息高新技术考试全

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体技术应用2音频处理技术(陈永强).ppt

文档简介

温馨提示

最新文档

评论

多媒体技术应用2音频处理技术(陈永强).ppt

文档简介

温馨提示

最新文档

评论

相关文档