多媒体技术_音频处理_第1页
多媒体技术_音频处理_第2页
多媒体技术_音频处理_第3页
多媒体技术_音频处理_第4页
多媒体技术_音频处理_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第第4 4章章 音频处理音频处理2第第4 4章章 音频处理音频处理 音频信号 音频数字压缩 MPEG-1音频 MPEG-2音频 MPEG-4音频 电子音乐合成与MIDI 语音识别 3D音频 音频应用3 声音是指人耳能识别的音频信息声音是指人耳能识别的音频信息.如人发出的话音,乐器声,动物发出的声音,机器产生如人发出的话音,乐器声,动物发出的声音,机器产生的声音,自然界的雷声,风声、雨声、闪电声等,也包的声音,自然界的雷声,风声、雨声、闪电声等,也包括各种人工合成的声音括各种人工合成的声音。 声音涉及到声波的物理传播特点和电声信号处声音涉及到声波的物理传播特点和电声信号处理技术。多媒体技术的发

2、展使计算机处理音频理技术。多媒体技术的发展使计算机处理音频信息已达到较成熟的阶段。信息已达到较成熟的阶段。声音声音4声音的特征指标声音的特征指标 声音是由于空气振动引起耳膜的振动,由人声音是由于空气振动引起耳膜的振动,由人耳接收,最后被大脑所感知。因此,声音的特耳接收,最后被大脑所感知。因此,声音的特征体现为物理特征和认知属性。这两类特性的征体现为物理特征和认知属性。这两类特性的基本对比见表:基本对比见表:物理特征物理特征认知属性认知属性强度(强度(IntensityIntensity)响度(响度(LoudnessLoudness)基频(基频(Fundamental FrequencyFund

3、amental Frequency)基音(基音(PitchPitch)谱形状(谱形状(Spectral ShapeSpectral Shape)音色(音色(TimbreTimbre)开始开始/ /结束时间(结束时间(Onset/Offset TimeOnset/Offset Time)定时(定时(TimingTiming)相位差相位差( (双耳听双耳听) )(Phase DifferenceBinaural Phase DifferenceBinaural HearingHearing)位置(位置(LocationLocation)4.1 4.1 音频信号音频信号5人的听觉响应与强度成对数关系

4、。只有在强度适中时才最人的听觉响应与强度成对数关系。只有在强度适中时才最灵敏。灵敏。 一般的人只能察觉出一般的人只能察觉出3 3 分贝的音强变化。分贝的音强变化。 常用音量或响度来描述声音强度,以分贝(常用音量或响度来描述声音强度,以分贝(dBdB)为单位。)为单位。 在处理音频信号时,相对强度更有意义。在处理音频信号时,相对强度更有意义。 动态范围定义:动态范围定义: 动态范围动态范围20 log20 log(信号的最大强度(信号的最大强度 / / 信号的最小强度)信号的最小强度)(dBdB) 动态范围越大,信号强度的相对变化范围越大,音响效动态范围越大,信号强度的相对变化范围越大,音响效果

5、越好。果越好。 音质效果音质效果AMAM广播广播FMFM广播广播数字电话数字电话CDCDDADA动态范围(动态范围(dBdB)404060605050100100表表4.1.2 4.1.2 几种音频业务的动态范围几种音频业务的动态范围动态范围6分贝示例7 基频:基频:O O ,决定音调决定音调 泛音:泛音:n nO O 称为称为基频的高次谐波分量基频的高次谐波分量 音色:由混入基音的泛音所决定的音色:由混入基音的泛音所决定的 高次谐波越丰富高次谐波越丰富, ,音色就越有明亮感和穿透力音色就越有明亮感和穿透力 不同的谐波具有不同的幅值和相位偏移,产生各种音色效果不同的谐波具有不同的幅值和相位偏移

6、,产生各种音色效果 能够用来描述乐器声的区别能够用来描述乐器声的区别 频率特性8频率特性 如果一个物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是乐音乐音;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为噪音噪音,如汽车发动机、计算机风扇等发出的都是噪音。9音色 因为声音的波形绝大多数都不是简单的正弦波,而是一种复杂的波。分析表明这种复杂的波形,可以分解为一系列的正弦波,这些正弦波中有基频f0,还有与f0成整数倍关系的谐波:f1、f2、f3、f4,它们的振幅有特定的比例。这种比例,赋予每种乐器以特有的“色彩”音色。如

7、果没有谐波成分,单纯的基音正弦信号是毫无音乐感的。 比如:大提琴音色、黑管音色不同 虽然演奏同一音高(基频)的音符,但人们能够明确分辨出是哪个乐器10频率特性频率特性 带宽:带宽:用来描述复合声音信号的频率范围。如高保真音信号(high-fidelityaudio)的频率范围为10Hz20,000Hz,带宽约为20kHz11l信噪比(信噪比(SNRSNR,Signal to Noise RatioSignal to Noise Ratio)是)是有用信号与噪声之比的简称有用信号与噪声之比的简称l是衡量声音质量的一种指标是衡量声音质量的一种指标l噪音可分为环境噪音和设备噪音噪音可分为环境噪音和设

8、备噪音l信噪比越大,声音质量越好信噪比越大,声音质量越好信噪比信噪比12其他音频质量指标 感觉上的、主观上的测试是评价声音质感觉上的、主观上的测试是评价声音质量不可缺少的部分。量不可缺少的部分。 可靠的主观度量值是较难获得的。可靠的主观度量值是较难获得的。13听觉生理 人耳最容易听到的就是4000Hz的频率,不管频率是增高或降低,即使是响度相同的情况下,大家都会觉得声音在变小。 当响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值,当频率超过15000Hz时,人耳的会感觉到声音很小, 很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。 当人耳同时听到两个不同频率

9、、不同响度的声音时,响度较小的那个也会被忽略14l采样频率采样频率:采样频率是指一秒钟内采样的次数。采样频采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(率的选择应该遵循奈奎斯特(Harry NyquistHarry Nyquist)采样理论:)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半。号频率只有采样频率的一半。l量化位数:量化位数:量化位是对模拟音频信号的幅度轴进行数字量化位是对模拟音频信号的幅度轴进行数字化所采用的位数,它决定了模拟信号数字化以后的动态范化所采用的位数,它决定了模拟

10、信号数字化以后的动态范围围l声道数:声道数:有单声道、双声道、多声道之分。双声道在硬有单声道、双声道、多声道之分。双声道在硬件中要占两条线路,音质、音色好,但数字化后所占空间件中要占两条线路,音质、音色好,但数字化后所占空间比单声道多一倍。比单声道多一倍。数字音频技术指标数字音频技术指标量化位等份动态范围(dB)应用825648 - 50数字电话166553696 -100CD-DA15声音质量与数据率声音质量与数据率 数据率=取样频率x量化位数x通道数目例:电话语音=8kx8bx1=64kbps=8kB/s=28MB/h例:CD的数据率44.1KHz,16bits,2,16l编码算法编码算法

11、作用作用采用一定的格式来纪录数字数据采用一定的格式来纪录数字数据采用一定的算法来压缩数字数据以减少存贮空采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率间和提高传输效率包括有损压缩和无损压缩包括有损压缩和无损压缩有损压缩指解压后数据不能完全复原,要丢失有损压缩指解压后数据不能完全复原,要丢失一部分信息。一部分信息。基本指标之一是压缩比基本指标之一是压缩比压缩越多,信息丢失越多、信号还原后失真越压缩越多,信息丢失越多、信号还原后失真越大大应根据不同的应用选用不同的压缩编码算法应根据不同的应用选用不同的压缩编码算法 数字音频技术指标(续)数字音频技术指标(续)17音频压缩编码技术音频压缩编

12、码技术主要依据是人耳的听觉特性:主要依据是人耳的听觉特性: 1. 人的听觉系统中存在一个人的听觉系统中存在一个 听觉阈值电听觉阈值电平平 ,低于这个电平的声音,低于这个电平的声音 信号人耳听不信号人耳听不到到 . 2. 人的听觉存在人的听觉存在 屏蔽效应屏蔽效应 。当几个强弱。当几个强弱不同的声音同时存在时,强不同的声音同时存在时,强 声使弱声难以声使弱声难以听到,并且两者之间的关系与其相对频率听到,并且两者之间的关系与其相对频率的大小有的大小有 关。关。4.2音频数字压缩音频数字压缩18l熵编码熵编码 如如HufmanHufman编码、算术编码以及行程编码等。编码、算术编码以及行程编码等。l

13、波形编码波形编码 全频带编码如全频带编码如PCMPCM、自适应差分、自适应差分PCMPCM等,子带编码如自等,子带编码如自适应变换编码适应变换编码ATCATC、心理学模型等,以及向量量化等在音、心理学模型等,以及向量量化等在音频中均常常采用。波形编码的特点是在高码率的条件下频中均常常采用。波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。号的压缩技术。l参数编码参数编码 参数编码的方法是将音频信号以某种模型表示,再抽参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声

14、音重放出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。时,再根据这些参数重建即可。参数编码压缩比很高,但计参数编码压缩比很高,但计算量大,而且不适合高保真度要求的场合。算量大,而且不适合高保真度要求的场合。 主要的音频压缩编码类型主要的音频压缩编码类型19l混合编码混合编码 是一种吸取波形和参数编码的优点,进行综合的编码方是一种吸取波形和参数编码的优点,进行综合的编码方法。法。l感知编码感知编码 感知编码利用心理声学分析原理来实现音频压缩。感知编码利用心理声学分析原理来实现音频压缩。例如例如MPEG Audio Layer 3 MPEG Audio Layer 3

15、采用的算法采用的算法ASPECASPEC(Adaptive Adaptive Spectral Perceptual Entropy Coding of high Spectral Perceptual Entropy Coding of high quality musical signalquality musical signal,高质量音乐信号自适应谱感,高质量音乐信号自适应谱感知熵编码),将原始音频信息数据压缩率达到知熵编码),将原始音频信息数据压缩率达到10:1 10:1 甚甚至至12:112:1。当然这是一种有损压缩,但是人耳却基本不能。当然这是一种有损压缩,但是人耳却基本不能分

16、辨出失真来。分辨出失真来。主要的音频压缩编码类型(续)主要的音频压缩编码类型(续)20波波 形形 编编 码码 算法算法 名称名称 数据率数据率 标准标准 应用应用 质量质量 PCM PCM 脉冲编码调制脉冲编码调制 公共网公共网SDNSDN配音配音 4.04.5 4.04.5 -law-law,A-law A-law -律,律,A-A-律律 64kbps 64kbps G.711 G.711 APCM APCM 自适应脉冲编码调制自适应脉冲编码调制 DPCM DPCM 差分脉冲编码调制差分脉冲编码调制 ADPCM ADPCM 自适应差分脉冲编码调制自适应差分脉冲编码调制 32kbps 32kb

17、ps G.721 G.721 SB-ADPCM SB-ADPCM 子带子带- -自适应差分脉冲编码调自适应差分脉冲编码调制制64kbps 64kbps G.722 G.722 5.3kbps 5.3kbps 6.3kbps 6.3kbps G.723 G.723 参参数数编编码码 LPC LPC 线性预测编码线性预测编码 2.4kbps 2.4kbps 保密话声保密话声 2.53.5 2.53.5 混混 合合 编编 码码 CELPC CELPC 码激励码激励LPC LPC 4.6kbps 4.6kbps 移动通信移动通信 4.03.7 4.03.7 VSELP VSELP 向量和激励向量和激励

18、LPC LPC 8kbps 8kbps 语音邮件语音邮件 RPE-LTP RPE-LTP 规则码激励长时预测规则码激励长时预测 13.2kbps 13.2kbps ISDN ISDN LD-CELP LD-CELP 低延时码激励低延时码激励LPC LPC 16kbps 16kbps G.728 G.728 G.729 G.729 MPEG MPEG 多子带,感知编码多子带,感知编码 128kbPs 128kbPs CD CD 5.0 5.0 Dolby AC-3 Dolby AC-3 感知编码感知编码 音响音响 5.0 5.0 音频数字压缩编码算法及其特性比较音频数字压缩编码算法及其特性比较2

19、1l实际应用中为了得到高的压缩率和好的声音质实际应用中为了得到高的压缩率和好的声音质量,常常要同时利用时域量,常常要同时利用时域- -频域分析与心理声学频域分析与心理声学分析,并使用多种编码方法分析,并使用多种编码方法实际应用考虑22实际应用考虑(续)l时时- -频分析可以包含下述技术:频分析可以包含下述技术:l单元变换单元变换l时不变均匀带通滤波器组时不变均匀带通滤波器组l时时变变边、临界采样的非均匀带通滤波器组边、临界采样的非均匀带通滤波器组l混合变换混合变换/ /滤波器组信号分析器滤波器组信号分析器l谐波谐波/ /正弦波分析器正弦波分析器l源系统分析(源系统分析(LPC/LPC/多脉冲激

20、励等)多脉冲激励等)l心理声学分析模块根据听觉绝对门限、临界带频率分析、心理声学分析模块根据听觉绝对门限、临界带频率分析、掩蔽效应等心理声学原理估计出信号掩蔽功率,使量化和熵掩蔽效应等心理声学原理估计出信号掩蔽功率,使量化和熵编码模块可以充分利用时编码模块可以充分利用时- -频分析得到的参数集中的感知不相频分析得到的参数集中的感知不相关性。关性。 l量化和编码模块同时也采用经典技术如差分脉冲码调制量化和编码模块同时也采用经典技术如差分脉冲码调制(DPCMDPCM)或自适应)或自适应DPCMDPCM(ADPCMADPCM)等来压缩信号的统计冗余。)等来压缩信号的统计冗余。l熵编码可能使用熵编码可

21、能使用RLERLE、算术编码、赫夫曼编码以及、算术编码、赫夫曼编码以及LZWLZW等。等。 23电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准 电话质量语音信号频率规定在电话质量语音信号频率规定在300Hz300Hz至至3.4kHz3.4kHz,采用标准的,采用标准的脉冲编码调制(脉冲编码调制(PCMPCM),当采样频率为),当采样频率为8kHz8kHz,进行,进行8bit8bit量化时,量化时,所得数据速率为所得数据速率为64kb/s64kb/s。G.711G.711(19721972年,年,CCITTCCITT):):PCMPCM标准,速率为标准,速率为64kbit/s64k

22、bit/s,采用,采用非线性量化,其质量相当于非线性量化,其质量相当于12bit12bit线性量化线性量化G.721 G.721 (19841984年,年,CCITT CCITT ):):ADPCMADPCM,32kb/s32kb/sG.728G.728(19921992年,年,CCITTCCITT):):LD-CELPLD-CELP,16kb/s16kb/s,质量与,质量与32kb/s32kb/s的的G.721G.721相当相当GSMGSM(19881988年,欧洲数字移动特别工作组):年,欧洲数字移动特别工作组): RPE-LTPRPE-LTP,13kb/s13kb/sVSELPVSELP

23、(8kb/s8kb/s)、)、LPCLPC(2.4b/s2.4b/s)、)、CELPCELP(4.8kb/s4.8kb/s)(美国)(美国)音频编码技术标准音频编码技术标准24调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 频率在频率在50Hz50Hz至至7kHz7kHz范围。范围。将输入音频信号经滤波器分成高子带和低子带两个部分,分将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行别进行ADPCMADPCM编码,再混合形成输出码流。编码,再混合形成输出码流。可以在窄带综合服务数据网可以在窄带综合服务数据网N-ISDNN-ISDN中的一个中的一个B B信道(信道(

24、64kbit64kbits s)上传送调幅广播质量的音频信号。)上传送调幅广播质量的音频信号。高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 频率范围是频率范围是50Hz50Hz至至20kHz20kHz,采用,采用44.1kHz44.1kHz采样频率,采样频率,16bit16bit量化量化进行数字化转换,其数据速率每声道达进行数字化转换,其数据速率每声道达705kbit705kbits s。音频编码技术标准音频编码技术标准25 MPEG-1 MPEG-1音频音频MPEG-1MPEG-1音频标准音频标准 MPEG-1MPEG-1音频编码标准包括三部分(音频编码标准包括三部分

25、(Layer 1, 2, 3Layer 1, 2, 3) 层层1 1的编码器最为简单,编码器的输出数据的编码器最为简单,编码器的输出数据率为率为384 kbps384 kbps,主要用于小型数字盒式磁带。,主要用于小型数字盒式磁带。 层层2 2的编码器的复杂程度属中等,编码器的的编码器的复杂程度属中等,编码器的输出数据率为输出数据率为256 kb/s192 kb/s256 kb/s192 kb/s,其应用包括,其应用包括数字广播、数字音乐、数字广播、数字音乐、CD-ICD-I和和VCDVCD。 层层3 3的编码器最为复杂,编码器的输出数据的编码器最为复杂,编码器的输出数据率为率为64 kbps

26、64 kbps,是目前最为流行的一种音乐格式是目前最为流行的一种音乐格式。26声音编码系统基本结构声音编码系统基本结构 在编码器中,输入声音信号经过一个在编码器中,输入声音信号经过一个“时间时间- -频率多相滤频率多相滤波器组波器组”变换到频域里的多个子带中。变换到频域里的多个子带中。 输入声音信号同时经过输入声音信号同时经过“心理声学模型心理声学模型”,计算掩蔽特性。,计算掩蔽特性。 “ “量化和编码量化和编码”部分用信掩比(部分用信掩比(SMRSMR,signal-to-mask signal-to-mask ratio)ratio)来决定分配给子带信号的量化位数,使量化噪声低于来决定分配

27、给子带信号的量化位数,使量化噪声低于掩蔽域值。掩蔽域值。 通过通过“数据流帧包装数据流帧包装”将量化的子带样本和其他数据按照将量化的子带样本和其他数据按照规定的称为规定的称为“帧帧(frame)”(frame)”的格式组装成数据流。的格式组装成数据流。 解码器对数据流进行解码,恢复被量化的子带样本值以重解码器对数据流进行解码,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,因此解码器就建声音信号。由于解码器无需心理声学模型,因此解码器就比编码器简单得多。比编码器简单得多。27(a)编码器 (b)解码器 MPEG音频编解码器基本框图28第第1 1层和第层和第2 2层编码层编码在

28、这两层中,用有在这两层中,用有3232个等间距子带的滤波器组将输入声音个等间距子带的滤波器组将输入声音PCMPCM信信号子带分离,再由生理声学模型导出动态比特分配,然后进行子号子带分离,再由生理声学模型导出动态比特分配,然后进行子带样值的块压缩和比特流打包。带样值的块压缩和比特流打包。三层音频系统三层音频系统29 使用的滤波器组是多相混合滤波器组使用的滤波器组是多相混合滤波器组 使用了心理声学模型来评估掩蔽门限。使用了心理声学模型来评估掩蔽门限。为了增加编码增益,采用了非均匀量化和为了增加编码增益,采用了非均匀量化和HuffmanHuffman编码。编码。并且使用了称为比特池的缓存技术来维持编

29、码效率和使并且使用了称为比特池的缓存技术来维持编码效率和使量化噪声保持在掩蔽门限以下。量化噪声保持在掩蔽门限以下。第第3层编解码层编解码30 MP3(MPEG-1 Layer 3),是当今较流行的一种音频格式,全称为MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。MP3是一种有损压缩,它利用了人耳的听觉特性来提高压缩率的算法。在基本上保持CD音质的前提下,MP3能将音频数据压缩到原有的1/10甚至更少。 MP3格式最早由德国弗朗霍夫研究院和法国汤姆生公司在1993年合作研制成功。但当时的MP3格式并不完善,由于MP3的编码方式开放,人

30、们可以选择不同的原理进行压缩,所以就出现了CBR、VBR、ABR等一批不同的编码方式,并导致了当今MP3编码方式较为混乱的局面,但现在通用的编码器为运用VBR或ABR编码方式的LAME。MP3编解码编解码31两种声音数据压缩格式:两种声音数据压缩格式:MPEG-2 AudioMPEG-2 Audio,或者称为或者称为MPEG-2MPEG-2多声道多声道(MultichannelMultichannel)声音,又称为声音,又称为MPEG-2 BCMPEG-2 BC(Backward CompatibleBackward Compatible,后向兼容),与后向兼容),与MPEG-1 AudioM

31、PEG-1 Audio是兼容的。是兼容的。MPEG-2 AACMPEG-2 AAC(Advanced Audio CodingAdvanced Audio Coding,先先进的音频编码),通常称为非后向兼容进的音频编码),通常称为非后向兼容MPEG-2 MPEG-2 NBC(Non-Backward-CompatibleNBC(Non-Backward-Compatible,非后向兼容非后向兼容) )标准,与标准,与MPEG-1MPEG-1声音格式不兼容。声音格式不兼容。 MPEG-2音频音频32MPEG-2MPEG-2音频特点音频特点 MPEG-2 Audio MPEG-2 Audio是是

32、MPEGMPEG为多声道声音开发的低码率编码方案,为多声道声音开发的低码率编码方案,它是在它是在MPEG-1MPEG-1音频标准基础上发展而来的。和音频标准基础上发展而来的。和MPEG-1MPEG-1音频相比,音频相比,MPEG-2MPEG-2音频主要增加了三个方面的内容:音频主要增加了三个方面的内容: 增加了声道数,支持增加了声道数,支持5.15.1声道和声道和7.17.1声道的环绕声。声道的环绕声。 扩展了编码器的输出速率范围,由扩展了编码器的输出速率范围,由32kbps32kbps至至384kbps384kbps扩展扩展到到8 kbps8 kbps至至640kbps640kbps。 增加

33、了低取样和低码率。在保持增加了低取样和低码率。在保持MPEG-1MPEG-1音频的单声道和立音频的单声道和立体声的原有取样率体声的原有取样率32/44.1/48kHz32/44.1/48kHz的情况下,的情况下,MPEG-2MPEG-2又增加了又增加了三种取样率,即把三种取样率,即把MPEG-1MPEG-1的取样率降低了一半(的取样率降低了一半(16kHz16kHz、22.05kHz22.05kHz、24kHz24kHz),),以便提高码率低于以便提高码率低于64kbits/s64kbits/s时的每个声时的每个声道的声音质量。道的声音质量。33 MPEG-2 MPEG-2音频标准把多声道中的

34、中心声道音频标准把多声道中的中心声道C C、左右环绕、左右环绕LsLs、RsRs及低音效果增强声道及低音效果增强声道LFELFE等多声道扩展信息看做等多声道扩展信息看做是是MPEG-1MPEG-1左右声道的辅助数据而传送。左右声道的辅助数据而传送。而多声道扩展部分包含了与而多声道扩展部分包含了与MPEG-1MPEG-1声音帧结构相似的声音帧结构相似的信息类型。信息类型。 MPEG-2音频码流的帧结构 MPEG-2音频多声道扩展部分的数据结构MPEG-2MPEG-2音频特点音频特点 34MPEG-2 MPEG-2 的的AACAAC是是MPEG-2MPEG-2标准中的一种非常灵活标准中的一种非常灵

35、活的声音感知编码标准:的声音感知编码标准: 使用听觉系统的掩蔽特性来减少声音的数据使用听觉系统的掩蔽特性来减少声音的数据 量量 通过把量化噪声分散到各个子带中,用全局通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉信号把噪声掩蔽掉 AACAAC支持的采样频率可从支持的采样频率可从 8kHz8kHz到到 96kHz96kHz AAC AAC编码器的音源可以是单声道的、立体声编码器的音源可以是单声道的、立体声的和多声道的声音。的和多声道的声音。 MPEG-2的的AAC35 MPEG-2MPEG-2音频还支持音频还支持DolbyDolby公司的数字声音数据压缩算法公司的数字声音数据压缩算法AC

36、-3AC-3(Audio Code Number 3Audio Code Number 3)。)。 AC-3AC-3的主要特点是利用人的听觉系统特性来压缩声音的主要特点是利用人的听觉系统特性来压缩声音数据,并支持数据,并支持5 5个声道个声道( (左、中、右、左环绕、右环绕和左、中、右、左环绕、右环绕和0.1 0.1 kHzkHz以下的低音音效声道以下的低音音效声道) ),声音样本的精度为,声音样本的精度为2020比特,每比特,每个声道的采样率可以是个声道的采样率可以是32kHz32kHz,44.1kHz44.1kHz或者或者48kHz48kHz。 AC-3AC-3系统具有系统具有100100

37、的自适应比特分配能力,允许数的自适应比特分配能力,允许数据传输率在据传输率在32kbps32kbps至至640kbps640kbps之间变化。之间变化。AC-3AC-3质量高,编质量高,编码器的复杂度也高,时延达到码器的复杂度也高,时延达到100ms100ms。 AC-3编码编码36 MPEG-4 MPEG-4音频标准分为自然音频编码和合成音频编码两音频标准分为自然音频编码和合成音频编码两大类。大类。 自然音频编码提供三种编码方案,即参数编码,码本自然音频编码提供三种编码方案,即参数编码,码本激励线性预测编码,时间激励线性预测编码,时间/ /频率(频率(T/FT/F)编码。)编码。 合成音频编

38、码提供两种编码方案,即结构音频(和文合成音频编码提供两种编码方案,即结构音频(和文语转换(语转换(TTSTTS,text-to-speechtext-to-speech)。)。 每个编码方案都按照两部分来组织标准的内容:标准每个编码方案都按照两部分来组织标准的内容:标准部分描述解码的语法和解码过程,附录部分描述编码器部分描述解码的语法和解码过程,附录部分描述编码器和接口。和接口。 MPEG-4音频音频37 MPEG-4MPEG-4(ISO/IEC 14496ISO/IEC 14496)已建立了两个版本,正在开)已建立了两个版本,正在开发第发第3 3版。版。MPEG-4MPEG-4音频部分促进广

39、泛的应用,这些应用可能音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成包括从智能语音到高质量多声道音频,从自然声音到合成声音。它支持下述成分组成的音频对象:声音。它支持下述成分组成的音频对象: 语音信号:能通过使用语音编码工具实现位速在语音信号:能通过使用语音编码工具实现位速在2kbps2kbps到到24kbps24kbps间的语音编码。间的语音编码。 合成语音:合成语音:可缩放的可缩放的TTSTTS编码器的位速在编码器的位速在200bps200bps到到1.2kbps1.2kbps之间。它允许一个文本或带有韵律参数的文本(基之间。它允许一个文本或带有韵律

40、参数的文本(基音轮廓,音素持续期等等)音轮廓,音素持续期等等)MPEG-4音频音频38MPEG-4ALS2005年7月形成了MPEG-4ALS的最终规格,并被国际标准组织接纳成为标准ISO/IEC14496-3:2005/Amd2:2006AudioLosslessCoding(ALS)MPEG-4ALS同时面向专业应用和消费应用而定义了高效、快速的无损音频压缩技术。它提供了许多其它无损压缩方案所缺乏的特性:对几乎所有未压缩数字音频格式的通用性支持,包括wav、aiff、au、bwf以及raw格式;支持PCM格式音频最大采样位数32位以及任意采样频率的任意组合,包括最常见的16位/44.1kH

41、z、16位/48kHz、24位/48kHz、24位/96kHz和24位/192kHz;支持多声道/多音轨,最高支持65536个声道,包括5.1环绕方式;支持32位IEEE浮点数音频数据;可快速地随机访问已编码数据的任何部分;可选择以MP4文件格式保存,支持与视频复合。高度灵活的编解码参数,可适应各种场合的应用。39mp3HD 在各种开放源码的无损音频压缩格式流行了多年之后,mp3也终于搭上了这趟车。mp3专利的持有人之一,纽约期货市场上市公司Thomson于2009年3月19日发布了mp3格式的最新技术:mp3HD。 mp3HD与mp3相比是完全不同的技术:mp3HD是无损压缩格式,也即从压缩

42、的音频中可以还原出与原始音频一模一样的数据。 使用mp3HD技术可以把音频数据的大小缩减为在最好情况下是原来的37%的大小,而在最坏情况下也能达到原数据大小的65%左右 由于有着mp3这个被广泛使用的有损音频压缩格式,因此mp3HD保留了对旧格式的兼容能力,包括:mp3HD本身的解码器将会向后兼容原来的mp3格式;对于旧有的mp3播放器,mp3HD文件可以通过内嵌有损压缩的mp3文件来达到兼容播放的目的;mp3HD文件也同样使用mp3作为文件扩展名;依旧使用ID3标记来在音频文件中存储与音频相关的文本信息。保持兼容型既是mp3HD的优点,也是mp3HD的历史包袱。40 文文- -语转换是将文本

43、形式的信息转换成自然语音的一种技术,其最终语转换是将文本形式的信息转换成自然语音的一种技术,其最终目标是使计算机输出清晰而又自然的声音,也就是说,要使计算机像人目标是使计算机输出清晰而又自然的声音,也就是说,要使计算机像人一样,根据文本的内容可带各种情调来朗读任意的文本。一样,根据文本的内容可带各种情调来朗读任意的文本。TTSTTS是一个十分是一个十分复杂的系统,涉及到语言学、语音学、信号处理、人工智能等诸多的学复杂的系统,涉及到语言学、语音学、信号处理、人工智能等诸多的学科。科。文本合成语音理解韵律生成韵律控制语音生成文本-音素转换 TTS系统方框图文文-语转换语转换41电子音乐合成电子音乐

44、合成 产生乐音的方法很多,现在用得较多的方法有模拟合成产生乐音的方法很多,现在用得较多的方法有模拟合成和数字合成两大类。和数字合成两大类。l模拟合成法,包括减法合成(滤波器模拟合成法,包括减法合成(滤波器 )和加法合成。)和加法合成。l数字合成法,包括频率调制合成(数字合成法,包括频率调制合成(FMFM),),波表合成波表合成(WavetableWavetable),),线线性性形合成(形合成(LALA),),先进集成式合成先进集成式合成(AIAI),),先进向量合成(先进向量合成(AVAV),),可变结构合成技术可变结构合成技术(VASTVAST)。)。 计算机中采用数字音乐合成技术,主要采

45、用两种方法:计算机中采用数字音乐合成技术,主要采用两种方法: 频率调制合成法(频率调制合成法(Frequency Modulation SynthesisFrequency Modulation Synthesis) 波表合成法(波表合成法(Wavetable SynthesisWavetable Synthesis,也称为乐音样本,也称为乐音样本合成法)合成法) 电子音乐合成与电子音乐合成与MIDI42频率调制(频率调制(FMFM,Frequency ModulationFrequency Modulation)合)合成成 是通过硬件产生正弦信号,再经处理合是通过硬件产生正弦信号,再经处理合

46、成音乐。成音乐。合成的方式是将波形组合在一起,理论上可合成的方式是将波形组合在一起,理论上可以有无限多组波形。以有无限多组波形。每一个每一个FMFM声音最少需要两个信号发生器,一声音最少需要两个信号发生器,一般称为般称为“操作器(操作器(operatorsoperators)”。复杂的。复杂的FMFM系统每一个音可以使用系统每一个音可以使用4 4或或6 6个操作器。个操作器。 频率调制合成频率调制合成43 使用使用FMFM合成法来产生各种逼真的乐音是相当困合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。难的,有些乐音几乎不能产生。 波表合成(乐音样本合成)法是将每种真实乐波表合成

47、(乐音样本合成)法是将每种真实乐器发出的声音抽样,加以适当的处理后存储成器发出的声音抽样,加以适当的处理后存储成声音样本(音色文件),记录在合成器的内存声音样本(音色文件),记录在合成器的内存当中,需要时,调用相应样本来合成该乐器的当中,需要时,调用相应样本来合成该乐器的乐音。乐音。 内存器的容量越大,合成效果越好,价格也越内存器的容量越大,合成效果越好,价格也越贵。贵。 波表合成合成器所需要的输入控制参数比较少,波表合成合成器所需要的输入控制参数比较少,可控的数字音效也不多,产生的声音质量比可控的数字音效也不多,产生的声音质量比FMFM合成方法产生的声音质量要高。合成方法产生的声音质量要高。

48、波表合成波表合成44 Wavetable合成器的工作原理Wavetable合成器的工作原理45MIDIMIDI(Musical Instrument Digital Musical Instrument Digital InterfaceInterface,乐器数字接口),乐器数字接口)2020世纪世纪8080年代早期年代早期问世问世MIDIMIDI提供一种标准的方式实现与音乐控制器如提供一种标准的方式实现与音乐控制器如键盘之类到声音生成器如合成器和鼓键盘之类到声音生成器如合成器和鼓声合成器声合成器等等的接口的接口MIDIMIDI并不传输声音,而是传输非常简单的消息并不传输声音,而是传输非常简

49、单的消息MIDI概述概述46 从电气角度看从电气角度看,MIDIMIDI是一个半双工的是一个半双工的5ma5ma电流回路,以电流回路,以31.25 K31.25 K波特(波特(kilobaudkilobaud)的位率运载)的位率运载8-bit8-bit的序列数据流的序列数据流经由经由MIDI “MIDI “交谈交谈”的两个装置能够用光隔离器的两个装置能够用光隔离器(optoopto-isolators-isolators)被电气地隔离,确保硬件系统的被电气地隔离,确保硬件系统的安全和无干扰运行安全和无干扰运行音频卡连结到一个外部的声音生成器或音频卡连结到一个外部的声音生成器或MIDIMIDI控

50、制器时控制器时需要特定的电缆需要特定的电缆 从信息的角度从信息的角度,MIDIMIDI是一种描述音乐上重要实时事件的语是一种描述音乐上重要实时事件的语言言通过通过1616个信道通信个信道通信 ,一个接口允许多达,一个接口允许多达1616个个MIDIMIDI乐器乐器播放播放,16,16个乐器能够从一个装置同时地播放个乐器能够从一个装置同时地播放增加第二个增加第二个MIDIMIDI接口则连通另外的接口则连通另外的 1616个个MIDIMIDI信道信道一些一些MIDIMIDI接口提供多达接口提供多达1616个输出,使它能够在同一时个输出,使它能够在同一时间存取间存取256256个信道。个信道。MID

51、I概述(续)概述(续)47MIDIMIDI并不传输声音,而是传输接收装置回应的非常简单的消息并不传输声音,而是传输接收装置回应的非常简单的消息乐器经由一个标准的乐器经由一个标准的5-DIN5-DIN插头连接起来插头连接起来例如:当在键盘上压一个键的时候,它向例如:当在键盘上压一个键的时候,它向MIDIMIDI电缆送一个音符响电缆送一个音符响(Note OnNote On)消息,命令接收装置播放一个音符。消息由三种元素消息,命令接收装置播放一个音符。消息由三种元素所组成:所组成:l一个状态字节:关于事件类型(在这种情况时是一个状态字节:关于事件类型(在这种情况时是Note OnNote On)的

52、信的信息以及它要被送往的信道息以及它要被送往的信道 (1(1至至1616号信道号信道) )l一个音符号:描述被压的键,例如是中一个音符号:描述被压的键,例如是中C C调调l速度值:指出打击键的力量速度值:指出打击键的力量接收装置将会播放这一个音符直到收到包含相同数据的一个音符停止接收装置将会播放这一个音符直到收到包含相同数据的一个音符停止(Note OffNote Off)消息。)消息。合成器根据正在被播放的声音将以不同速度回应合成器根据正在被播放的声音将以不同速度回应例如,当更激烈地击键时,钢琴声将更大声。音调的质量也要改变。例如,当更激烈地击键时,钢琴声将更大声。音调的质量也要改变。专业的

53、合成器时常引入额外的音色来模仿槌敲击弦的声音。专业的合成器时常引入额外的音色来模仿槌敲击弦的声音。连续控制器连续控制器 (CC(CC,Continuous Controllers)Continuous Controllers)通常用来控制设定通常用来控制设定音量、效果水平和改换声道(音量、效果水平和改换声道(panpan,即横过一个立体声场的声音的即横过一个立体声场的声音的定位)等。许多定位)等。许多MIDIMIDI装置可以分配内部参数到装置可以分配内部参数到 CCCC,有有128128种选择。种选择。MMAMMA(MIDI Manufacturers AssociationMIDI Manu

54、facturers Association,MIDIMIDI制造业者协会)为合制造业者协会)为合成器开发了规范,称为通用成器开发了规范,称为通用MIDIMIDI。MIDI概述(续)概述(续)48 MIDIMIDI电子乐器通过电子乐器通过MIDIMIDI接口与计算机相连接口与计算机相连 计算机可采集计算机可采集MIDIMIDI电子乐器发出的一系列指令并记录到电子乐器发出的一系列指令并记录到以以 .MID.MID为扩展名的为扩展名的MIDIMIDI文件中文件中 计算机可对计算机可对MIDIMIDI文件进行编辑和修改。最后,将文件进行编辑和修改。最后,将MIDIMIDI指指令送往音乐合成器令送往音乐

55、合成器 合成器将合成器将MIDIMIDI指令符号进行解释并产生波形,然后送往指令符号进行解释并产生波形,然后送往扬声器播放出来扬声器播放出来用PC构成的MIDI系统MIDI音乐的产生音乐的产生49MIDIMIDI的新进展包括:的新进展包括: 新新MIDIMIDI接口接口 多工多工MIDIMIDI操作系统操作系统 网络音乐网络音乐 可下载声音(可下载声音(DLSDLS,downloadable downloadable soundssounds) MIDI的新进展的新进展50 语音识别一直是人类的梦想,语音识别一直是人类的梦想,其最终目标是实现人与机器进行其最终目标是实现人与机器进行自然语言通信

56、自然语言通信 。 最早的机器自动语音识别研究工作开始于最早的机器自动语音识别研究工作开始于2020世纪世纪5050年代。当时年代。当时的的BellBell实验室实现了第一个可识别十个英文孤立数字的语音识实验室实现了第一个可识别十个英文孤立数字的语音识别系统别系统AudryAudry系统。系统。 2020世纪世纪6060年代,计算机的应用推动了语音识别的发展。提出了年代,计算机的应用推动了语音识别的发展。提出了动态规划和线性预测分析技术。动态规划和线性预测分析技术。 2020世纪世纪7070年代,取得了突破。实现了基于线性预测倒谱和年代,取得了突破。实现了基于线性预测倒谱和DTWDTW技技术的特

57、定人孤立语音识别系统。术的特定人孤立语音识别系统。 2020世纪世纪8080年代,语音识别研究进一步走向深入。年代,语音识别研究进一步走向深入。HMMHMM模型和人工模型和人工神经元网络(神经元网络(ANNANN)在语音识别中成功应用。)在语音识别中成功应用。 进入进入2020世纪世纪9090年代,随着多媒体时代的来临,许多著名公司都年代,随着多媒体时代的来临,许多著名公司都为语音识别系统的实用化开发研究投以巨资。为语音识别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家也很重视。鉴我国语音识别研究工作一直紧跟国际水平,国家也很重视。鉴于中国未来庞大的市场,国外也非常

58、重视汉语语音识别的研究。于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。语音识别语音识别51 按说话方式分:孤立字(词)语音识别系统、连接字语按说话方式分:孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。音识别系统以及连续语音识别系统。 根据对说话人的依赖程度分:特定人和非特定人语音根据对说话人的依赖程度分:特定人和非特定人语音识别系统。识别系统。 根据词汇量大小分:小词汇量、中等词汇量、大词汇根据词汇量大小分:小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。量以及无限词汇量语音识别系统。 面向任务的语音识别系统的一般方块图语音识别系统的分类语音识别系统的分

59、类52 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。术三个方面。此外,还涉及到语音识别单元的选取。 语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。由具体的研究任务决定。 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型

60、匹配算法复杂,难以满足实时性要求。匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有语言,而英语是多音节,并且汉语虽然有13001300多个音节,但若不多个音节,但若不考虑声调,约有考虑声调,约有410410来来个无调音节,数量相对较少。个无调音节,数量相对较少。 音素单元以前多见于英语语音识别的研究中,但目前中、大词音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。虽然增加了模型数汇量汉语语音识别系统也在越来越多地采用。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论