第2章音频技术基础教学文稿.doc_第1页
第2章音频技术基础教学文稿.doc_第2页
第2章音频技术基础教学文稿.doc_第3页
第2章音频技术基础教学文稿.doc_第4页
第2章音频技术基础教学文稿.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章音频技术基础教学文稿 第2章音频技术基础多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2-1声学基础知识?音频信号特性时域特性?三个阶段起始、稳定和结束?语音信号的时域特性?很强的时变特性?短时的平稳性多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University频域特性?可分解成多个正弦分量?可分为周期信号和非周期信号?频谱分析线状谱与连续谱组成声音的常见参数?频率可闻声20Hz10KHz?声压及声压级?听阈及痛阈?人耳的听阈和痛阈分别对应的声压级为0dB和120dB多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?人耳听觉特性声音的主客观参数?客观声压/声强、频率、波形(频谱结构)?主观响度、音调、音色多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?声音质量评价客观评价?用客观测量的手段来评价语音?信噪比、加权信噪比、平均分段信噪比等主观评价?专家对声音的感受?平均意见得分(MOS得分)等多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2-2音频信息编码分类?分为三类波形编码、参数编码和混和编码。 ?波形编码基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。 优点是实现简单、语音质量较好、适应性强等。 缺点是话音信号的压缩程度不是很高,实现的码速率比较高。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?常见的波形压缩编码方法:脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPCM、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。 ?比特率一般在16至64之间?编码信号的速率编码速率采样频率编码比特数?播放某个音频信号所需要的存储容量存储容量播放时间速率8(字节)多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?参数编码又称声源编码,它是通过构造一个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。 优点语音编码速率较低2kbps9.6kbps缺点是自然度较低。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University周期性信号随机性信号线性时变滤波器G增益控制合成语音信号输出C(n)基音周期T P时变参数a iu(n)图24语声信号产生模型v(n)语音信号产生模型多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?在模型图中,周期信号源表示浊音激励源,随机信号表示清音激励源;u(n)表示波形产生的激励参数,可以用清/浊音判决(u/v)来表示;G是增益控制,代表语声信号的强度;线性时变滤波器可以看作是声道特性;ai是线性时变滤波器的系统参数;C(n)是合成的语声输出。 ?参数编码的典型代表是线性预测编码LPC多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?混和编码将波形编码和参数编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。 采用混合编码的编码器有?多脉冲激励线性预测编码器(MPE-LPC)?规则脉冲激励线性预测编码器(RPE-LPC)?码激励线性预测编码器(CELP),?矢量和激励线性预测编码器(VSELP)?多带激励线性预测编码器。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University1234524616832kbps主观音质评价混合法图26三种压缩编码的性能比较参量法波形法参数编码波形编码混合编码三种压缩编码的性能比较多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2-3常用压缩编码方法?脉冲编码调制PCM对数据的采样值进行量化编码信号缓慢变化,其相邻样值之间有较大的相关性性2.3.1差分脉冲编码调制DPCM和自适应差值脉冲编码调制ADPCM多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?差分脉冲编码调制DPCM对相邻样值的差值进行量化编码由于此差值比较小,可以为其分配较少的比特数,进而起到了压缩数码率的目的话音信号的样值序列当前样值完整的预测表达式N Ny yyy,121?Ny?Nii iN NNy ay ay ay ay1112211?多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University式中为当前值的预测值为当前值前面的N-1个样值。 为预测系数,若预测系数随输入信号而变化时就是自适应预测。 则当前值与预测值的差值表示为Ny?Ny12,1,?Ny yy?121,?Na aa?NyN Nyy e?0?Ny?多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University+量化器预测器样值信号输出(a)编码器+(b)解码器预测器滤波器输入图27差分脉冲编码调制系统方框图y差分脉冲编码调制系统多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University系数的求法是预测估值的均方差为最小的预测系数。 为了进一步提高编码的性能,人们将自适应量化技术和自适应预测技术结合在一起用于差分脉冲编码调制DPCM中,从而实现了自适应差分脉冲编码调制ADPCM。 ADPCM的简化原理框图如图2-8所示。 ia多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?在线性预测编码LPC中,将语声信号简单的划分为浊音信号和清音信号。 清音用白色随机噪声激励信号来表示浊音用准周期脉冲序列激励信号来表示?由于语声信号是短时平稳的,根据语声信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语声信号。 ?逐帧将语声信号用基音周期Tp,清/浊音(u/v)判判决,声道模型参数ai和和增益G来表示。 对这些参进数行量化编码,在接收端再进行语声的合成。 2.3.2线性预测编码LPC多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University模拟信号参量译码A/D基音提取清/浊音判决预测系数分析信道参量量化编码低通D/A激励信号合成滤波器图2-9线性预测LPC编译码方框图Tp?ia?iau/vGG、Tpu/v多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?标量量化:单个采样的样值进行量化?矢量量化VQ:将输入的信号样值按照某种方式进行分组,把每个分组看作是一个矢量,并对该矢量进行量化2.3.3矢量量化VQ(Vector Quantization)编码多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2.3.4子带编码SB带通滤波器1带通滤波器2带通滤波器n编码器1编码器2编码器n译码器1译码器2译码器n带通滤波器1带通滤波器2带通滤波器n信道复接器调制器1采样1调制器n调制器2采样2采样n分配器解调器1解调器n解调器2输出信号输入信号发送端接收端图211子带编码原理方框图多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?发送端n个带通滤波器将输入信号分为n个子频带,对各个对应的子带带通信号进行调制,将n个带通信号经过频谱搬移变为低通信号;对低通信号进行采样、量化和编码,得到对应各个子带的数字流;再经复接器合成为完整的数字流。 经过信道传输到达接收端。 ?接收端由分配器将各个子带的数字流分开,由译码器完成各个子带数字流的译码;由解调器完成信号的频移,将个子带搬移到原始频率的位置上。 各子带相加就可以恢复出原来的语声信号。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University将语声信号分为若干个子带后再进行编码有几个突出的优点对不同的子带分配不同的比特数可以很好的控制各个子带的量化电平数,很好的控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。 由于各个子带相互隔开,使各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。 这样,某些输入电平比较低的子带信号不会被其它子带的量化噪声所淹没。 子带划分的结果,使各个子带的采样频率大大的降低。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?利用人耳听觉的心理声学特性(包括频域掩蔽特性和时域掩蔽特性)人耳对音频信号的幅度、频率和时间的分辨能力是有限的人耳感觉不到的成分都不进行编码和传送对感觉到的部分进行编码时,也允许有较大的量化失真,只要这个失真是在人耳感觉不到的听阈以下即可?感知编码的理论基础是基于人耳的听阈、临界频段和掩蔽效应。 2.3.5感知编码Perceptual Coding多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?临界频段反应了人耳对不同频段声音的反应灵敏度是有差异的在低频段对几赫兹的声音差异都能分辨,而在高频段的差异要达到几百赫兹才能分辨。 试验表明,低频段的临界频段宽度有100Hz到200Hz,在大于5kHz后的高频段的临界频段宽度有1000Hz到几万万Hz。 近近3/4的临界频段低于5kHz。 因此在编码时要对低频段进行精细的划分,而对高频段的划分不必精细。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?掩蔽包括频域掩蔽和时域掩蔽。 在频域,一个强音会掩蔽掉与之接近的弱音,掩蔽特性与掩蔽音的强弱、掩蔽音的中心频率以及掩蔽音与被掩蔽音的频率相对位置有关。 时域掩蔽是指掩蔽效应发生在掩蔽音与被掩蔽音不同时出现时,也称为异时掩蔽。 在编码时,对被掩蔽的弱音不必进行编码,从而达到数据压缩的目的。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University时间/频率映射心理声学模型按帧打包量化和编码(a)编码器M PE G音频码流P CM声音信号按帧窗拆重建频率/时间映射(b)解码器P CM声音信号M PE G音频码流图2-12M PE G音频编解码器基本框图多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2-4音频信息压缩编码标准2.4.1波形编码标准G.711标准?1972年,PCM编码?8KHz,8位(64kpbs),A律和u律G.721标准?用于PCM(64kbps)和ADPCM(32kpbs)之间的转换G.722标准?针对调幅广播质量的音频信号?SB-ADPCM编码,16KHz,14位(224kbps)多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?2.4.2混和编码标准G.728标准?1992年,低延时码激励线性预测LD-CELP?16kbpsG.729标准?ITU-T为低码率应用而制订的语音压缩标准?8kbps,码激励线性预测(CELP)G.723.1标准?一种用于网络环境下的低码率音频传输标准?5.3kbps,多脉冲最大似然量化技术(MP-MLQ)?6.3kbps,代数码激励线性预测(ACELP)多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG-1声音标准?MPEG-1音频编码的信号频带是2020kHz,取样频率使用的是32kHz、44.1kHz和48kHz,采用的编码算法是感知子带编码。 ?Laer-1的编码器最为简单,主要用于小型数字盒式磁带;?Layer-2编码器的复杂程度是中等,主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘;?Layer-3的编码器最为复杂,主要用于ISDN上的声音传输。 ?2.4.3MPEG音频编码标准多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG音频编码采用了子带编码,共分为32个子带。 MPEG编码的音频数据是按帧安排的。 Layer-1的每帧包含3212384个样本数据,Layer-2和Layer-3每帧包含有323121152个样本数据,是Layer-1的3倍。 Layer-1的编码?Layer-1的子带划分采用等带宽划分,分为32个子带,每个子带有12个样本,心理声学模型只使用频域掩蔽特性。 ?Layer1和Layer2编码器的结构基本类似,其差别在于滤波器子带的划分不同和FFT的运算点数不同同步头(32位)图218MPEG层1帧结构附加数据(未指明位数)子带样本比例因子(6位)位分配(4位)CRC(16位)相当于32个PCM声音输入样本多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University?帧头由每帧开始的前32个比特组成,这32个比特包含同步信息和状态信息,同步码由12个全1码组成。 所有的三层音频信息编码在这部分都是一样的。 ?帧校验码帧校验码占16比特,用来检测传输后比特流的差错,其多项式表达式为。 所有三层的这一部分也都是相同的。 ?音频数据由比特分配表、比例因子选择信息、比例因子和子带样值组成。 其中子带样值是音频数据的最大部分,不同层的音频数据是不同的。 ?辅助数据用来传输相关的辅助信息。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityLayer-2编码?Layer-2编码在Layer-1的基础上作了改进。 32个子带的划分是不等划分,其划分依据是临界频段。 每个子带分为3个12样本组,这样每帧共有1152个样本。 在掩蔽特性方面除保留原有的频域掩蔽外还增加了时域掩蔽。 另外在低频、中频和高频段对位分配作了重新安排,低频段使用4位,中频段使用3位,高频段使用2位。 同步头(32位)图220MPEG层2位流格式低频段(4位)中频段(3位)高频段(2位)3个子带样本相当于96个PCM声音输入样本子带样本比例因子(6位)比例因子选择信息(2位)位分配CRC(16位)附加数据(未指定位数)多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityLayer-3编码?Layer-3仍然使用不等长子带划分。 心理声学模型在使用频域掩蔽和时域掩蔽特性之外又考虑到了立体声信息数据的冗余,还增加了霍夫曼编码器。 滤波器组在原有的基础上增加了改进离散余弦MDCT特特性,可以部分消除由多相滤波器组引入的混叠效应。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG-2BC声音压缩标准MPEG-2BC声音标准是在MPEG-1的基础上发展来的,是是MPEG为为多声道声音开发的低码率编码方案,并与MPEG-1的声音标准保持后向兼容。 与MPEG-1相比主要增加了下面几个方面的内容?支持5.1多路环绕立体声可以提供5个全带宽声道,分为左、右、中、和两个环绕声道,另加一个低频效果增强声道,称为5.1声道。 ?扩展了编码器的输出范围,从32384kb/s扩展到8640kb/s。 ?增加了更低的取样频率和低码率在保持MPEG-1原原有的取样频率的基础上,又增加了三种取样频率,新增的取样频率为16kHz、22.05kHz和24kHz,是将原有有MPEG-1的取样频率降低了一半,以便提高码率低于于64kb/s时的每个声道的声音质量。 多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG-2对多声道的扩展方式是通过可分级的方式来实现的。 在编码器端,5个输入的声道信号分别向下混合为一路兼容立体声信号,再按照MPEG-1的编码标准进行编码;用于在解码端恢复原来5个声道的相关信息都被安置在MPEG-1的附加数据区里,MPEG-1在进行解码的时候可忽略此区的数据。 这些附加信息在在声道T 2、T3和T4以及在低音效果增强LFE声声道中传输。 MPEG-2多声道解码器除了对MPEG-1的的部分进行解码外,还对附加的信道T 2、T3和T4以及LFE声道进行解码,根据这些信息来恢复原来的5.1声声道道MPEG-1帧头MC声音数据MC组合状态信息MCCRCMC帧头MPEG-1AUXMPEG-2多声道扩展数据MPEG-1声音数据MPEG-1CRCMC声音数据图2-23MPEG-2声音码流的帧结构多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG-2AAC(Advanced AudioCoding)是MPEG-2标标准中一种非常灵活的编码标准,采用感知编码方法,主要是利用听觉系统的掩蔽特性来减少声音编码的数据量;并且通过子带编码将量化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉。 MPEG-2AAC采用模块化的编码方法,把整个ACC系统分成一系列模块,用标准化的ACC工具对模块进行定义。 AAC定义了3种配置基本配置、低复杂性配置和可变采样率配置。 ?基本配置在三种配置中提供最好的声音质量,除没有使用增益控制模块外,其余模块都使用。 低复杂性配置没有使用预测模块和预处理模块,使用的瞬时噪声定形滤波器模块的级数也有限,声音质量低于基本配置。 可变采用率配置使用增益控制作预处理,没有使用预测模块,对TNS滤波器的级数和带宽也有限制,是最简单的一种配置。 ?2.4.4MPEG-2ACC编码标准多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo UniversityMPEG-4音频编码标准集成了从话音到高质量的多声道声音,从自然声音到合成声音。 采用的编码方法有多种,包括参数编码、码激励线性预测编码CELP、时间/频率编码、结构化声音SA编码和文-语系统TTS的合成声音。 ?参数编码器使用参数编码技术。 对于8kHz采样频率的话音信号,编码器输出的码流速率是24kb/s;对于采样频率位8kHz或16kHz的话音信号,编码器的输出速率为416kb/s。 ?使用码激励线性预测编码器,对于采样频率为8kHz或或16kHz的话音信号,输出速率为624kb/s。 ?矢量量化和线性预测的编码器使用了时间频率T/S技术,对于采样频率为8kHz的话音信号,编码输出速率大于16kb/s。 ?2.4.5MPEG-4音频标准多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2241610864可伸缩编码器486432参数编码典型音频带宽时间/频频(T/F)编码码激励线性预测编码C EL P4k Hz8k Hz20k HzIS DN Intern et蜂窝电话卫星保密通信图2-25264k b/s的M PE G-4音频编码框图多媒体通信技术音频技术基础信息科学与工程学院宁波大学Ningbo University2-5多媒体音频信号文件格式自从PC机可以支持多媒体应用以来,很多公司在利用计算机处理音频信息方面下了很大的气力,从而先后出现了许多的音频文件格式。 这些音频文件格式有些仍在流行,而另一些已不很流行了。 由此我们知道,某个音频文件格式实际上是与研制它的机构有关联的。 Wave(Wave AudioFiles)文件,其扩展名为WAV。 Wave格式是Microsoft公司开发的一种声音文件格式,它对声音模拟信号波形的采样。 AIFF文件,其扩展名为AIF或AIFF。 AIFF是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论