已阅读5页,还剩108页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体技术第2章,多媒体音频技术,本章主要内容,音频信号的相关概念音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率音频信息压缩编码技术标准体系G.7XX系列和MPEG-X系列G.7XX声音压缩编码技术各标准的编码方法;编/解码器等MPEG-X声音压缩编码电子乐器数字接口MIDI,2.1音频信号,声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:频率:声音的尖锐程度。振幅:声音的大小,又称响度。音频信号是指处在20Hz20kHz频率范围的声音。,音频信号,声波图示,其中包含两个重要参数:频率和振幅,音频信号,根据音频信号占用频谱的不同,可以将音频信号分为3类:1.语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为300Hz3KHz,成年人多为60Hz-400Hz,男声音调10ms,女声音调6ms。2.音乐信号:各种乐器发出的声音,频率范围大约为20Hz20kHz。3.噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。以上这些声音都可以称为波形声音。,通常声音的声强,通常声音的分类,音频信号的数字化,音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。,音频信号的数字化,对声音信号进行采样时,一般使用音频范围的ADC(模数转换器)进行。不同的ADC主要区别于以下两个重要参数:(1)采样频率:采样频率是指每秒钟采集声音样本的个数。它的取值应该满足NyquistTheory,即采样频率fs应该大于等于声音信号中最高频率fm的两倍。采样频率的单位是:Hz或samples/s。如:数字电话的采样率为8KHz。,音频信号的数字化,(2)采样精度:采样精度用样本位数来表示。样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。采样精度的单位是:bits/sample。,音频信号的数字化,采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。,另外一种表示精度的方法是信噪比(SNR),表示为:,其中,Vsignal表示信号电压,Vnoise表示噪声电压,SNR的单位为分贝(dB)。信噪比越高,声音质量越好。,音频信号的数字化,声音硬件:,音频信号压缩编码的可行性与分类,对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。(2)利用人的感知特性进行压缩。(3)根据话音产生机理进行压缩。,音频信号压缩编码的可行性与分类,根据压缩编码思想的不同,把音频编码技术分为三类:(1)波形编码(WaveformCoding)(2)源编码(SourceCoding)(3)混合编码(HybridCoding)衡量语音编码性能的主要因素有:编码质量;编码速率;算法复杂度。,音频信号压缩编码的可行性与分类,波形编码:没有利用语音信号自身的特点。如:1.CD质量音频数据量:2x44100 x16b/s2.电话质量音频数据量:8Kx8b/s(DPCM56Kb/s;ADPCM32Kb/s)源编码:参数化,利用语音信号的特点进行数据压缩。例如:信道声码器的工作原理:将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。,音频信号压缩编码的可行性与分类,接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至3Kb/s。混合编码:如:利用语音识别和语音合成系统构建的语音压缩。,声音类别与数据率,声音根据频带分为5类:(1)电话(Telephone)声音(2)调幅(AmplitudeModulation)广播声音(3)调频(FrequencyModulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(DigitalAudioTape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。,声音类别与数据率,声音类别与数据率,我们所熟悉的数字音频文件格式如下表所示:,声音质量的度量,声音质量的度量分为:客观质量度量和主观质量度量。声音客观质量的度量用信噪比来展开:信噪比越大,声音质量越好;反之,信噪比越小,声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,通常分5分:1分:劣(极反感);2分:差(讨厌但不反感);3分:中(有点讨厌);4分:良(基本可以接受);5分:优(效果很好),声音质量的度量,2.5数字音乐的文件格式,WAV文件微软公司定义的音频文件格式基于PCM编码表示一种直接的表达声波的数字形式,用.wav为扩展名的文件格式称为波形文件格式(wavefileformat)。Wav文件是由采样数据组成的,所以它所需要的存储容量很大。例如:用44.1kHz的采样频率对声波进行采样,每个采样点的量化位数选用16位,则录制1秒的立体声节目,其波形文件所需的存储容量为:44100162/8176400(字节),VOC文件是Creative公司波形音频文件格式,也是声霸卡(soundblaster)使用的音频文件格式。每个VOC文件由文件头块(headerblock)和音频数据块(datablock)组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件,重复的结束,重复以及终止标志,扩展块等。,现说明VOC格式音频文件的文件头如下:00H13H字节:文件类型说明。前19个字节包含下面的正文:CreativeVoiceFile。最后是EOF字节(1AH)14H15H字节:其值为001AH16H17H字节:文件的版本号。小数点后面的部分在前。如本号为1.10,则这两个字节内的值为010AH。18H19H字节:是一个识别码。由这个代码可以检验其文件是否真正的VOC文件。其值是16H和17H单元中所存文件版本号的反码再加上1234H。例如,版本号为1.10,010AH的反码是FEF5H,则这个代码为:FEF5H1234H1129H。,利用声霸卡提供的软件可以实现VOC和WAV文件的转换:程序VOC2WAV转换Creative的VOC文件到Microsoft的WAV文件。程序WAV2VOC转换Microsoft的WAV文件到Creative的VOC文件。,MIDI文件利用指令或者消息来描述音乐事件,而不是描述音乐的波形信号,2.5数字音乐的文件格式,RMI、SNDRMI是Microsoft公司MIDI文件格式,它可以包括图片、标记和文本。音频是PCM(pulsecodemodulation)格式,它是模拟的音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。SND是另一种计算机的波形音频文件格式。,AIFAIF是Apple计算机的音频文件格式。Windows的Convert工具可以把AIF格式的文件转换成Microsoft的WAV格式的文件。表2-4列出了部分声音文件的后缀扩展名,2.5音频信号的特点,2.5.1概述(1)基于音频数据的统计特性进行编码,其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。PCM(脉冲编码调制)是最简单最基本的编码方法。它直接赋予抽样点一个代码,没有进行压缩,因而所需的存储空间较大。为了减少存储空间,人们寻找压缩编码技术。利用音频抽样的幅度分布规律和相邻样值具有相关性的特点,提出DPCM、APCM和自ADPCM等算法,实现了数据的压缩。波形编码适应性强,音频质量好,但压缩比不大,因而数据率较高。,(2)基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原因品的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低,但还原信号的质量较差,清晰度低。将上述两种编码算法很好地结合起来,采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测(CELP)、多脉冲激励线性预测编码(MPLPC)等。,(3)基于人的听觉特性进行编码。从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和DollbyAC-3最有影响。,(4)编码算法:编码的作用其一是采用一定的格式来纪录数字数据,其二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压缩编码的基本指标之一就是压缩比,它通常小于1。压缩越多,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。音频数据压缩比可用下式表示:,音频的波形编码,波形编码是指经过数学编码和解码过程后重建的模拟信号波形与原始的模拟信号波形尽可能一致的编码方法。在波形编码中一个重要的问题是在给定的编码速率下如何获得最高的信号噪声比(SNR)的问题。波形编码有脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分ADPCM、子带编码等,其中对数PCM和ADPCM应用最为普遍。,脉冲编码调制脉冲编码调制PCM(PulseCodeModulation)是一种模数转换的最基本编码方法,CD-DA就是采用的这种编码方式。这是一种最通用的无压缩编码。特点是保真度高,解码速度快,但编码后的数据量大。在数字音频表示中,采用二进制编码是方便的,全部数据由一组二进制编码表示。上述这种简单地把语音经模/数转换得到数字表示方法示意的是一种瞬时均匀量化器。它采用的编码方法称作脉冲编码调制PCM)。在MPC中就是用这种方法存储未压缩的音频数据。在量化中,将量化表示成,自适应差分脉冲调制编码(ADPCM),这是一种有损压缩,它丢掉了部分信息。由于人耳对声音的不敏感性,适当的有损压缩对视听播放效果影响不大。ADPCM记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。这样,每个采样点的量化位就不需要16bit,由此可减少信号的容量。可选的幅度差的量化比特位为8bit、4bit和2bit。SB16的ADPCM编码采用4bit量化位,对CD音质信号压缩,其压缩比为1:4,压缩后基本上分辨不出失真。,对数PCM对数码率的压缩作用不是很大,为取得大的压缩效果首先是提出了差分编码的概念。像话音信号相邻样值差别很小,为此将相邻样值相减,得到一个很小的差值。值很小,就可以用较少的码位数去对编码,使数码率就可大为降低了。这样的编码中就必须有保留前一样值的电路和作差分的相减电路,如果在前一样值保留期间再作幅度预测,则将更小。在ADPCM中除了有自适应预测外,量化器的量化随输入信号大小作自动调整。,子带编码的音频压缩,子带编码是将输入信号分割成若干子带,分别对各子带信号独立进行量化编码的方式。其主要优点是:带子带信号的量化噪声都束缚在本子带内,避免能量较小频带内的输入信号被其它段的量化噪声所掩蔽;可以通过分配给各子带不同的量化比特数来分别控制它们的信噪比,以实现主观听觉上的功能要求;子带数目可变。,变换编码的音频压缩,变换编码是将输入信号用时间窗分成短区间数据块,进行正交变换,对变换系数逐个地进行量化并传送的方法。AC-2和AC-3系统采用的就是正交变换,其变换的输出可直接送入心理声学模型进行计算。其优点是变换带宽能较好地接近临界频带,因而在100Kb/s左右的速率也能达到透明质量。但所有块变换都存在分块效应的缺点,它将在音频编码器中产生周期性低频噪声。为避免分块效应,出现了重叠正交变换(LOT-LappedOrthogonalTransform)方法。输入信号先经过两信道的高、低通滤波器进行频带的粗分,再对其中高频部分细分及LOT,而低通部分则重复前面过程。这样做的优点:一是分块之间有重叠,二是能更好地逼近临界频带,有可能得到更好的音频质量。,分析合成(混合)编码,波形编码本质上遵循取样定理,是以样值为基础的。32Kb/s的ADPCM等于每个样值4比特,也可做到每样值2比特、总码率为16Kb/s,音质很差,很少有应用价值。由此必须另觅中低码率(16Kb/s以下码率)语音编码方法,这种方法的出发点是基于语音产生的机理,对人的发音模型的有关参数进行分析编码,研究证明,在编码端对语音的特征参数进行分析编码,在解码端根据收到的参数代码进行语音合成是一种既能降低数码率又能保持一定语音质量的好办法。分析一合成编码是近10年语音压缩编码研究的热点,有数十种不同的方案。最具代表性的线性预测码和码激励线性预测编码。,音频编码技术的新发展,1.信号分解及滤波器组无论是改进现有方案或者是探索新的途径,其关键问题都是如何充分利用掩蔽效应,需要对输入信号进行最有效的分解。而信号分解通常是用多速率滤波器组或等效的重叠变换得到的。近几年来,滤波器组的研究已形成了构造滤波器组的两个准则。即:1.临界抽样(CriticalSampling),其意义是:子带信道的总速率等于输入样值的速率。2.完全重建(PerfectReconstruction),其意义是:在没有量化失真的情况下,分解信号能精确地恢复原始信号。临界抽样保持音频编码逐级工作在不比输入抽样速率高的总速率,完全重建则排除了在量化和编码中引入的噪声。以此研究了许多改进方案。,2.小波变换音频编码小波是一簇有限能量的基函数。由于它具有伸缩、平移和放大功能,可以对信号进行多尺度分析,对信号实现既在时域又在频域的高度局部化。而小波变换系数具有固有的时间信息和频率信息,特别是对时域中能量集中的信号(如脉冲),在某种程度上将产生变换系数的集中。故非常适合于处理非平稳过程的信号。如宽带音频信号、图像信号。近几年来,将小波变换用于高质量宽带音频编码技术的研究已发表了大量文章。针对宽带音频编码的关键问题,研究内容主要集中在以下几方面:1临界频带滤波器组的逼近及离散小波包的优化。将每一帧信号分解为29个小波子带,且子带应近似于临界频带,以便充分利用掩蔽效应。2小波分解与现有编码技术的结合,以改进压缩编码特性。如与多脉冲LPC,变换编码等的结合。基于小波变换的系统设计,充分应用小波变换的优越性,其主要内容有:小波基的选择,自适应小波编码,以及掩蔽模型与小波量化的关系等。,音频信号的特点,在多媒体系统中,音频信号要分为两类:语音信号和非语音信号。非语音信号又可分为乐音和杂音。非语音信号的特点是不具有复杂的语意和语法信息,信息量低,识别简单。语音是语言的物质外壳(载体)。语言是人类社会特有的一种信息系统,是社会交际工具的符号。音频信号处理的特点如下:(1)音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有25ms的延迟,人就会感到断续。(2)由于人接收声音有两个通道(左耳、右耳),因此为使计算机模拟自然声音,也应有两个声道,即理想的合成声音应是立体声。(3)由于语言信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其他信息。因此可能会涉及到语言学、社会学、声学等。,从人与计算机交互的角度来看音频信号相应的处理如下:(1)人与计算机通信(计算机接收音频信号)音频获取:语音识别与理解(2)计算机与人通信(计算机输出音频)音频合成:包括音乐合成和语音合成声音定位:包括立体声模拟;音频/视频同步,目的是让计算机产生真实感声音。(3)人计算机人通信,音频信息压缩编码技术标准体系,常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。G.7XX是一组ITU-T标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在-law算法(美国使用)和A-law算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。MPEG-X是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。,G.7XX系列音频信号压缩编码标准,G.71164kbps信道上的语音频率脉冲编码调制(PCM)G.72132kbit/s自适应差分脉冲编码调制(ADPCM)G.72264kbit/s下的7kHz音频编码G.722.1带有低帧损耗的具有免提操作的系统在24kbit/s和32kbit/s上的编码G.722.2利用自适应多频率宽带(AMR-WB)以16kbit/s多频率语音编码,G.7XX系列音频信号压缩编码标准,G.72640、32、24、16kbit/s自适应差分脉冲编码调制ADPCMG.7275-、4-、3-和2-bit/s嵌入式自适应差分脉冲编码调制ADPCMG.728利用低延迟代码线性预测以16bit/s进行语音编码G.729利用共扼结构代数激励编码线性预测(CS-ACELP)以8bit/s进行语音编码,MPEG-X系列音频信号压缩标准,MPEG-1制定于1992年,为工业级标准而设计。它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音。,MPEG-X系列音频信号压缩标准,MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2可提供CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。,MPEG-X系列音频信号压缩标准,两种声音数据压缩格式(1)MPEG-2Audio,或者称为MPEG-2多声道(Multichannel)声音,又称为MPEG-2BC(BackwardCompatible,后向兼容),与MPEG-1Audio是兼容的。(2)MPEG-2AAC(AdvancedAudioCoding,先进的音频编码),通常称为非后向兼容MPEG-2NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。,MPEG-X系列音频信号压缩标准,MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。,MPEG-X系列音频信号压缩标准,MPEG-4音频标准(ISO/IEC14496-3)分为自然音频编码和合成音频编码两大类。MPEG-4(ISO/IEC14496)已建立了两个版本,正在开发第3版。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:语音信号:合成语音:它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。,2.3G.7XX声音压缩编码,G.711声音压缩编码G.722声音压缩编码G.723声音压缩编码G.729声音压缩编码各自的编码方法编/解码器结构及工作原理,G.711声音压缩编码,G.711是一种基于波形编码的最基本的音频压缩算法。由于它的实现不考虑语音信号的内在特点,其编/解码器的复杂程度相对较低。压缩后的语音速率在16Kbit/s以上,能保证较高的话音质量;低于此速率时,话音质量明显下降。典型编码方式为:PCM,DPCM,ADPCM。,G.711声音压缩编码,本压缩标准常用于数字PBX/ISDN上的数字式电话。在G.711中,经过编码的语音已经具有了在PSTN中或者通过PBX传输数字语音的正确格式。G.711使用的是64Kbps的带宽。符合G.711的设备可以与其他G.711设备进行通信,但是不能与G.723设备通信。,G.711的编码方法,对50Hz3.2kHz的语音信号采用A律或律压扩的PCM编码方法。以上两种方法均采用了非均匀量化:非均匀量化中主要采用了“压缩-扩展技术”,在发送端采用具有“压缩”(Compressor)的量化特性,即对大信号进行大步长量化和对小信号进行小步长量化;而在接收端采用与发送端的逆变换,即“扩展”的量化特性。这样的收发双方合成效果为线性,才不致引起各样本的“压-扩”失真。,G.711的编码方法,A律PCM编码本编码方式主要应用于欧洲和中国大陆等地区。其定义了量化输入和输出关系:,其中,x为归一化的输入信号幅度,取值范围为-1x1;sgn(x)为x的极性;A为确定压缩量的参数,反映了最大量化间隔与最小量化间隔之比。,G.711的编码方法,A律PCM编码为了简化计算,通常把对数曲线部分变成折线,即A律/13折线的PCM编码,具体做法:1)动态范围为归一化值。2)由于正域和负域对称,先不计极性位,分别将y(FA(x)正域和负域分为8段,每段长度为1/8.3)相应的x值由A律公式为对应8段,最左段开始为1/128,1/60.6,1/3.91,1/1.98,1。4)在正负域将x各点的值1/2i(i=0,1,2,7)分别与y的8段值对应。,G.711的编码方法,A律PCM编码A律/13折线的编码方法为:每个码字包含8个bit,其布局为:1)表示极性的码:8bit中最高位a7。2)段落码:a6a5a4三位码元表示此量化值处于8段中的哪一段。3)段内码:每段中均有16个不同的电平,由低四位a3a2a1a0表示量化值为某段中的某个电平。,G.711的编码方法,律PCM编码本编码方式主要应用于北美和日本等地区。其定义了量化输入和输出关系:,其中,x为归一化的输入信号幅度,取值范围为-1x1;sgn(x)为x的极性;为确定压缩量的参数,反映了最大量化间隔与最小量化间隔之比。,G.711的编码方法,律PCM编码类似的,为了简化计算,通常把对数曲线部分变成8条折线来进行处理。A律和律均含有对数运算,主要是因为根据人耳的听觉特性:其对声音的响度与幅度值的对数成正比。,编/解码器,G.711音频编/解码器结构如下图所示:,编/解码器,编码器:模拟语音结果放大和阻抗匹配,通过低通滤波器,将其中3003400Hz分量送到A/D转换器;A/D中模拟音频以8kHz和14bits进行采样和量化,然后用律或A律压扩,形成8bitsPCM音频送到输出寄存器;在线路时隙和时隙时钟的共同作用下,将8位并行的PCM音频变为符合时隙要求的串行音频。解码器:与编码器功能相反。,G.722声音压缩编码,G.722基于子带ADPCM技术(SBADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉码调制算法。G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于3.4kHz。其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。,G.722的编码方法,采用子带自适应差分脉冲编码调制技术(SB-ADPCM)。以上技术的操作方法是:用正交镜像滤波器(QMF)把频带分割成两个等带宽的子带,分别是高频带和低频带。对两个子带中的信号采用ADPCM进行编码。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。,G.722的编/解码器,G.722音频编/解码器结构如下图所示:,a.编码器,b.解码器,G.723声音压缩编码,G.723是ITU-T在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括IP电话服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及各种多媒体语音信息产品。G.723标准传输码率有5.3kb/s和6.3kb/s两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。该标准主要包含了编码算法和解码算法。,G.723声音压缩编码,5.3kb/s的编码器采用代数码线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟语音信号。,G.723的编码方法,G.723是基于分析合成的声音压缩编码标准。下面,首先介绍G.723中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。,G.723的编码方法,参数编码此编码方法又称音源编码,其原理参见下图。,G.723的编码方法,参数编码原理:通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器的结果。话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。,G.723的编码方法,参数编码原理:根据接收到的话音参数,基于下图中的生成过程进行话音重构:,G.723的编码方法,参数编码提取语音生成模型的参数的常用方法:线性预测编码技术。其基本思想是:用过去的p个样本值来预测下一个样本值的大小,并利用系数ai的选取来使预测误差en(等于实际样本值与预测值之差)的平方和最小。音源编码器的数据率较低,一般在2.4kbit/s左右,但话音质量较低。语音生成模型的固有缺陷,使得话音质量无法通过提高参数的编码比特数来提高,但其保密性很好。,G.723的编码方法,分析合成编码(AbS)本编码方法是利用波形编/解码和参数编/解码各自的特点进一步提高压缩编码的性能。为了得到音质高且数据率低的编/解码器,出现过很多形式的混合编/解码器,其中最普遍使用的是时域合成分析(Analysis-by-Synthesis)编/解码器。这种编码器的声道线性预测滤波器模型与LPC的相同,但激励信号不同,本激励信号波形尽可能接近于原始话音波形。,G.723的编码方法,分析合成编码(AbS)AbS编码又称为多脉冲激励(MPE)编/解码器。其中使用的激励信号是固定数目的脉冲,在一帧中脉冲的位置和幅度由编码器来确定。在MPE基础上派生出RPE编/解码器。其中使用的是固定间隔的脉冲,只需要确定第一个激励脉冲的位置和所有其它脉冲幅度。MPE和RPE编/解码器在数据速率为10kbit/s左右可提供好的音质。在10kbit/s下的数据速率音质还是不能接受。,G.723的编码方法,分析合成编码(AbS)在MPE基础上还派生出CELP编/解码器和MELP编/解码器。现在使用得较普遍的算法就是CELP。CELP使用的激励信号是量化的矢量,由矢量量化码簿表项给出。CELP编/解码器的速率在4.816kbit/s之间。近年来,对在2.4kbit/s或者更低数据率下的编/解码作了大量的研究工作。,G.723的编码方法,AbS编/解码器结构如下图所示:,(a)编码器,(b)解码器,G.723的编码方法,AbS编/解码器工作原理:AbS编码器是负反馈系统,通过调节激励信号u(n),“合成”许多不同的近似值来“分析”输入话音信号,可使话音输入信号s(n)与重构的话音信号s(n)之差为最小。在表示每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送道译码器。译码中,激励信号被馈送到合成滤波器,合成滤波器产生重构的话音信号。,G.723的编/解码器,G.723编/解码器的原理框图如下图所示:,G.723的编/解码器,G.723编/解码器的原理:语音信号经过数字化后成为PCM信号,再经过编码器后得到LPC系数、峰值信号和激励信号,三者复合为一路语音编码信号送出。在G.723编码中,输入的数字语音信号被分成帧,每帧30ms,240个样点。每帧分为2部分,再将每一个部分又一分为2,称为一个子帧。LPC分析对每一帧的4个子帧求出LPC系数。这些系数经过线性化谱对(LSP)分析可估计出其开环基音值。,G.729声音压缩编码,G.729采用了共轭结构代数码激励线性预测(Conjugate-StructureAlgebraic-Code-ExcitedLinear-Prediction)技术的具有8kbit/s码率的语音编码算法。G.729语音压缩标准的应用非常广泛,如VoIP网络、IP电话、视频会议和电话会议等。ITU当初制定G.729语音压缩标准时,为了使其具有低码元率、高音质、却又低复杂度的特性,在G.729算法中运用了相当多的专利技术。,G.729的编码方法,采用CS-ACELP技术的G.729声音压缩编码原理框图见下图。,G.729的编码方法,这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。工作原理:编码器(上图)对10ms长的语音帧进行处理,每帧分为两个子帧。输入语音首先要在预处理模块中经过高通滤波和幅度压缩变换,以去除低频干扰及防止在后面运算中出现溢出。,G.729的编码方法,工作原理:每帧进行一次线性预测(LP)分析,并将LPC参数转换到线谱,对(LSP)形式进行预测式二阶段矢量量化(VQ)。然后使用分析合成法,按照合成信号和原始信号间感觉加权失真最小的准则来提取激励参数。每帧要利用感觉加权语音进行一次开环整数基值基音延时估计,然后进行闭环的分数值基音分析,确定自适应码本的延时和增益,下面再进行固定码本的搜索。自适应码本和固定码本的增益使用预测式二阶段共轭结构码本进行矢量量化。,G.729的编码方法,解码器原理图如下,首先要从接收到的码流中提取LSP系数等参数。将自适应码本和固定码本矢量分别乘以各自的增益再相加,得到激励信号。激励信号通过LPC综合滤波器后,就得到了合成语音信号。,2.4MPEG-X声音压缩编码,由于有必要确定一套通用的视频和音频声音编码方案,ISO/IEC标准组织成立了ISO/IESJTC1/SC29/WG11,即MPEG(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。MPEG针对的DSM包括CD-ROM、DAT、磁光碟和电脑磁盘。包括:MPEG-1、MPEG-2和MPEG-4音频MPEG-7音频框架,MPEG-1声音压缩编码,MPEG-1音频编码标准包括三部分,分别对应第1,2和3层(Layer1,2,3)。层次越高,其性能和复杂度也越高。用户可在复杂性和声音质量之间权衡对层次作出选择。层1的编码器最为简单,编码器的输出数据率为384kbps,主要用于小型数字盒式磁带(DCC,digitalcompactcassette)。,MPEG-1声音压缩编码,层2的编码器的复杂程度属中等,编码器的输出数据率为256kb/s192kb/s,其应用包括数字广播声音(DBA,digitalbroadcastaudio)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等。层3的编码器最为复杂,编码器的输出数据率为64kbps,主要应用于ISDN上的声音传输。,MPEG-1声音压缩编码,下图是一个使用听觉标准的通用声音编码系统的基本结构,(a)是编码器,(b)是解码器。这也是MPEG-1声音编码器的结构图。,图(a),图(b),MPEG-1声音压缩编码,MPEG-1音频编码示意图:,MPEG-2声音压缩编码,两种声音数据压缩格式MPEG-2Audio,或者称为MPEG-2多声道(Multichannel)声音,又称为MPEG-2BC(BackwardCompatible,后向兼容),与MPEG-1Audio是兼容的。MPEG-2AAC(AdvancedAudioCoding,先进的音频编码),通常称为非后向兼容MPEG-2NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。,MPEG-2声音压缩编码,MPEG-2音频标准把多声道中的中心声道C、左右环绕Ls、Rs及低音效果增强声道LFE等多声道扩展(MC-Extension)信息看做是MPEG-1左右声道的辅助数据而传送。它的数据帧结构如下图1所示,而多声道扩展MC部分包含了与MPEG-1声音帧结构相似的信息类型,如下图2所示。,图1,图2,MPEG-2声音压缩编码,MPEG-2的AACMPEG-2的AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准,主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。AAC支持的采样频率可从8kHz到96kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。,MPEG的声音压缩速率,MPEG-1和MPEG-2的声音数据规格,2.6MIDI,MIDI概述MIDI是MusicalInstrumentDigitalInterface的缩写,是一种协议标准MIDI文件是一种描述性的“音乐语言”,它将所要演奏的乐曲信息用字节进行描述。譬如在某一时刻,使用什么乐器,什么音符开始,音调结束,什么伴奏等,相当于乐谱的数字描述,本身不包含波形数据,非常小巧,对MIDI的编辑也很灵活,在音序器的帮助下,用户可以自由地改变音调、音色等属性,直到自已想要的效果。波形文件就很难做到这一点。当然,MIDI的声音尚不能做到在音质上与真正的乐器完全相似,在质量上还需要进一步提高;MIDI也无法模拟出自然界中其他非乐曲类声音。但MIDI确实给多媒体应用增色不少。,MIDI发声原理1.频率调制合成法2.乐音样本合成法(波表法)以消息或者指令的形式说明音高音长通道号等音乐信息比如:大钢琴中音C在MIDI标准中被描述为0通道第60号音符,MIDI产生声音的方法是MIDI文件没有记录任何声音信息,而只是发送给音频合成器(音序器Sequencer)一系列指令,这些指令说明了音高、音长、通道号等音乐的各主要信息,并以扩展名为(.MID)的文件格式储存起来,而当播放这些文件时,最重要的信息则是“Noteon”,每当演奏一个音符时就发出信息,而“Noteoff”则表示停止演奏。另外,MIDI技术标准提供的音符范围为128个,编号从0127.例如,钢琴的中音C对应MIDI设备中的第60号音符,钢琴的最低音(A1)对应MIDI设备中的第21号音符,最高音(C88)则对应于MIDI设备中的第108号音符。,MPU-401简介,MPU-401(MIDIProcessingUnit)-MIDI处理单元是由Roland公司为使MIDI接口与其软件相兼容而制定的一个标准。因此,在实际上,一般可以把MPU-401理解为于MIDI设备的一种接口标准。MPU-401能以两种方式工作:在Intelligent(智能)方式下,MIDI接口自身处理很多与MIDI有着的重要信息,从而减经了计算机内部CPU的负担,使其同时还能处理其它工作;在Dumb(非智能或UART)方式下,该MIDI接口只能简单地传送MIDI数据,而所要处理的工作则给计算机去完成。国际MIDI协会出版了标准MIDI文件(StandardMIDIFiles)规范,该标准说明了处理定时标记MIDI数据的一种标准化方法。这种方法适合各种应用软件共享MIDI数据文件,这些软件包括音序器、乐谱软件包和多媒体演示软件。目前,大部分声卡都支持该接口标准。,MIDI的术语,(1)MIDI文件存放MIDI信息的标准文件格式。MIDI文件中包含音符、定时和多达16个通常的演奏定义。文件包括每个通道的演奏音符信息:键、通道号、音长、音量和力度(击键时,键达到最低位置的速度)。(2)通道(channels)MIDI可为16个通道提供数据。每个通道访问一个独立的逻辑合成器。Microsoft使用110通道做扩展合成器,1316做基本合成器。(3)音序器(sequencer)是为MIDI作曲而设计的计算机程序或电子装置。音序器能够用来记录、播放、编辑MIDI事件。大多数音序器能输入、输出MIDI文件。(4)合成器(synthesizer)利用数字信号处理器或其他芯片来产生音乐或声音的电子装置。数字信号处理器产生并修改波形,然后通过声音产生器和扬声器发出声音。合成器发声的质量和声部取决于以下因素:合成品在能够同时播放的独立波形的个数。经控制软件的能力,合成器电路中的存储空间。,(5)乐器(instrument)合成器能产生特定声音。不同的合成器,乐器音色号不同,声音质量也不同。如,多数乐器都能合成钢琴的声音,不同乐器使用的音色号不同,它们输出的声音是有差异的。(6)复音(puyphong)这里指的是合成器同时支持的最多音符数。如一个能以六个复音合成四种乐器声音的合成器,可同时演奏分布于四种乐器的六个音符。它可能是四个音符的钢琴和弦、一个长笛和一个小提琴的音。(7)音色(tmbre)音色指的是声音的音质。音色取决于声音频率的组成。在非正式的用法中,它指的是与特定乐器相关的特定声音
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危险废物贮存管理的63个要点
- 2026年中国贸易行业发展展望及投资策略报告
- 3000ta阻燃母粒建设项目环境影响报告表
- 2025-2026学年度河北省邯郸市滏春中学高二上学期期中考试历史试题(含答案)
- 编制设计概论试题及答案
- 2025年藏文基础知识题库及答案
- 2025年代谢组学技术题库及答案
- 2025年大专动物解剖题库及答案
- 2025年魅力销售专员岗位招聘面试参考题库及参考答案
- 2025年汽车电子工程师岗位招聘面试参考试题及参考答案
- 食品加工企业会计核算流程
- 生物质燃料颗粒可行性研究报告
- 《资产负债表(适用执行民间非营利组织会计制度的组织)》
- 《发票发票知识培训》课件
- 《铁路技术管理规程》(普速铁路部分)
- 2024年秋季新版苏科版八年级上册物理课件 跨学科实践 乐器的调查与制作
- 民兵潜力数据调查培训
- 辽海版综合实践活动七年级上册同步课件教案81用好电子小帮手之活动一电子产品走近你我他
- 离职员工不损害公司声誉保证书
- 3.8 第1课时弧长的计算 浙教版数学九年级上册课件
- 初中语+文+第9课《从百草园到三味书屋》课件+统编版语文七年级上册
评论
0/150
提交评论