音频的数字化与语音编码.ppt_第1页
音频的数字化与语音编码.ppt_第2页
音频的数字化与语音编码.ppt_第3页
音频的数字化与语音编码.ppt_第4页
音频的数字化与语音编码.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 音频的数字化与语音编码,学习内容,第一节 音频的数字化 1、 声音 2、模拟音频与数字音频 3、音频的采样、量化和数字化(重点) 4、数字音频的格式,学习内容,第二节 语音编码 1、人耳的听觉特性 2、脉冲编码调制(PCM) 3、G.711标准、G.721标准、G.722标准(重点),学习目标,1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理 3、了解数字音频的文件格式 4、掌握常见的音频压缩编码方法 5、理解G.711、G.721、G.722标准,第一节 音频的数字化,一、声音,声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上,一、声音有关概念,复合信号:声音信号由许多频率不同的信号组成,分量信号:单一频率的信号,带宽:描述组成复合信号的频率范围。如: 高保真声音的频率范围为10 Hz20K Hz,它的带宽约为20K Hz。,一、声音三要素,音强(volume) 音调(pitch) 音色, 响度,由振幅决定 由频率决定 指声音频率组成成分,一、声音分类,次音频信号20kHZ(人听不到,有很强的方向性,可以形成波束),二、模拟音频与数字音频,模拟信号 数字信号,二、模拟音频与数字音频,模拟音频:在时间和幅度上都是连续变化的,数字音频:在时间和幅度上都是离散、不连续的,三、音频的数字化,模拟音频,数字音频,采样、量化、编码,三、音频的数字化(采样),音频采样:当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值。,信号转换示意图,三、音频的数字化(采样),采样: 将时间上连续的取值变为有限个离散取值的过程,三、音频的数字化(采样),奈奎斯特采样定理:,设连续信号X(t)的最高频率分量为Fm,以等间隔Ts(Ts称采样间隔,fs=1/Ts称为采样频率)对X(t)进行采样,得到Xs(t)。如果Fs=2Fm,则Xs(t)保留了X(t )的全部信息(从Xs(t)可以不失真地恢复出X(t))。,只要采样频率高于信号中最高频率的2倍,就可以从采样中完全恢复原始信号的波形。,三、音频的数字化(量化),音频量化:将经采样后幅度上无限多个连续的样值变为有限个离散值的过程,三、音频的数字化(量化),量化过程:先将整个幅度划分成为有限个幅度(量化阶距) 的集合,把落入某个阶距内的样值归为一类,并赋予相同的 量化值。,量化等级的划分,三、音频的数字化,模拟信号,采样,量化,编码,A/D转换中,影响质量及数据量的主要因素:,每秒钟需要采集多少个声音样本即采样频率,每个声音样本的位数(bps)应该是多少即量化位数,三、音频的数字化,例子:每个声音样本用16位表示,测得声音样本值是在065536的范围里,它的精度就是输入信号的1/65536,声音质量与数据率,三、音频的数字化,四、数字音频的文件格式,1、WAV文件,声音是随着时间连续变化的物理量,并且是 一种能借助介质传播的波。,四、数字音频的文件格式,1、WAV文件,字节数/秒=采样频率(HZ) * 量化位数(BIT)* 声道数/8,特点:数据量大 音质好 不适合网络传播或播放,文件数据量计算:,? 1分钟单声道,采样频率为11.025kHz,8位采样位数,四、数字音频的文件格式,2、MP3文件,MPEG Audio Layer-3 特点:数据量较小,压缩率10:120:1 音质较好 是目前最为流行的音频格式文件,四、数字音频的文件格式,3、MIDI文件,数字乐器接口标准 特点:midi文件中存储的是产生声音指令 数据量小,适用于:需要播放长时间高质量音乐,四、数字音频的文件格式,3、MIDI文件,四、数字音频的文件格式,3、MIDI文件,四、数字音频的文件格式,4、ASF、WMA文件,微软开发的网上流式数字音频文件格式 特点:音质好 数据量小 适合网络流式传输,四、数字音频的文件格式,5、RAM、RA文件,RealNetworks开发的网上流式数字音频文件格式 特点:能随带宽的不同而改变音质,在保证大多数人听到流畅声音的前提下,带宽宽裕的听众获得较好的音质 适合低网速的实时传输,四、数字音频的文件格式,6、AIF、AU文件,Apple公司开发的音频文件格式,四、数字音频的文件格式,7、CD-DA,数字音频光盘 44.1khz、16Bit量化位数、双声道,四、数字音频的文件格式,8、MD,Mini Disc Sony推出的便携式音乐格式 MD汽车音响、随身听,五、音频文件的读取,工具: UltraEdit Debug 其他反汇编软件,WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。 RIFF是英文Resource Interchange File Format(资源互换文件格式 )的缩写,每个WAVE文件的头四个字节便是“RIFF”。对应的十六进制是52 49 46 46。,五、音频文件的读取,五、音频文件的读取,WAV文件结构,五、音频文件的读取,五、音频文件的读取,例:sound.wav,44.1kHz 16位 双声道 12.68秒 2236752字节数据量,五、音频文件的读取,六、声音质量的度量,1、客观质量度量:信噪比,信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。 噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。,2、客观质量度量:带宽,六、声音质量的度量,2、客观质量度量:带宽,六、声音质量的度量,音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好,六、声音质量的度量,3、客观质量度量:动态范围,声音的动态范围即声音从最弱变到最强的范围。声音的动态范围还与频率有关。动态范围最大的频率区间是1000-6000HZ,计量单位是分贝(dB)。 动态范围越大,信号强度的相对变化范围越大,音响效果越好,六、声音质量的度量,3、客观质量度量:动态范围,动态范围20log(信号的最大强度/信号的最小强度)(dB),六、声音质量的度量,4、主观质量度量:MOS分数 Mean Opinian Score,作业,1、你认为多媒体技术发展的八大技术基础中哪一个是最重要的技术基础?并说明原因。 2、请简述音频数字化过程。 3、计算: 三分钟的采样频率为22.05kHz,量化位数为16位的立体声音频数据量为多少?,第二节 语音编码,一、人耳的听觉特性,人耳对各频率的灵敏度是不同的 频域掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。 时域掩蔽效应 在时间上相邻的声音之间也有掩蔽现象,二、脉冲编码调制(PCM),二、脉冲编码调制(PCM),1、均匀量化的PCM,二、脉冲编码调制(PCM),2、非均匀量化的PCM,CCITT国际电话电报咨询委员会 Consulative Committee for International Telephone and Telegraph),原始信号 F=8khz B=14bit,F=8khz B=8bit,压缩,采用的方法:对数PCM编码,律压扩(北美、日本) A 律压扩(西欧、中国),64Kbps,112Kbps,三、 G.711标准,三、 G.711标准,律压扩,x为输入信号幅度,规格化成-1=x=1 F(x)为量化输出数据 Sgn(x)为x的极性 反映最大量化间隔与最小量化间隔之比,100= =500 具体取值为255,三、 G.711标准,A律压扩,0=|x|=1/A,1 /A =|x|=1,x为输入信号幅度,规格化成-1=x=1 Sgn(x)为x的极性 A 反映最大量化间隔与最小量化间隔之比,具体取值87.56,四、G.721标准,原始信号 F=8khz B=14bit,F=8khz B=8bit,或A律,F=8khz B=4bit,112Kbps,64Kbps,32Kbps,ADPCM,APCM (自适应脉冲编码调制),DPCM (差分脉冲编码调制),ADPCM (自适应差分脉冲调制),四、G.721标准,四、G.721标准,APCM (自适应脉冲编码调制),能随信号幅度的大小自动地改变量化阶距的编码制式。,改变量化阶距的方法:,前向自适应APCM (Forward Adaptation) 后向自适应APCM (Backward Adaptation),四、G.721标准,改变量化阶距的方法一:前向自适应APCM,根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶距的大小,并对其电平进行编码作为边信息(Side Information)传送到接收端。,逆 量化器,四、G.721标准,改变量化阶距的方法二:后向自适应APCM,根据从量化器刚输出的过去样本中来提取量化阶信息。这种自适应能在发收两端自动生成量化阶,所以不需要传送边信息。,四、G.721标准,DPCM (差分脉冲编码调制),根据过去的样本去估算(estimate)下一个要量化编码的样本信号幅度有多大,这个值称为预测值,编码器仅对实际信号值与预测值之差进行量化编码。,四、G.721标准,+,逆量化器,S r(k),S(k)输入信号 Se(k-1) 是对S(k)的预测值 S r(k)译码的输出信号 dq(k)是量化差分信号 d(k)差分信号,四、G.721标准,ADPCM (自适应差分脉冲编码调制),ADPCM = APCM + DPCM,+,五、 G.722标准(子带编码),原始信号 F=8khz B=14bit,F=8khz B=8bit,或A律,F=8khz B=4bit,112Kbps,64Kbps,32Kbps,ADPCM,F=16khz B=4bit,64Kbps,SBC(子带编码),分 接 器,Xn,五、 G.722标准(子带编码),根据不同频段的重要性来分配位数 根据不同频段的能量电平来改变量化阶距,五、 G.722标准(子带编码),六、 G.728、G.729标准,为了进一步降低压缩的速率,CCITT于1992年制定了G.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论