版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3.1 音频编码技术,2,音频的分类,音频频率范围 低频声音(Infra-sound): 0Hz20Hz 人类听觉频率范围的声音:20Hz20kHz 高频(Ultrasound): 20kHz1GHz 超声波(Hypersound): 1GHz10THz 不同音频的带宽 电话语音: 200Hz3.4kHz 调幅广播: 50Hz7kHz 调频广播: 20Hz15kHz 宽带音响: 20Hz20kHz,3,声音信号的数字化,对模拟信号的处理比较复杂,难于精确控制,成本高。将模拟信号转换成数字信号,处理简单,精确。 模拟信号与数字信号在时间和幅度上都是连续的信号称为模拟信号在时间和幅度上都是用离散的
2、数字表示的信号称为数字信号,4,声音信号的数字化,声音信号的数字化 采样在某特定时刻对模拟信号进行测量叫采样。采样的时间间隔称为采样周期,采样可分为均匀采样(每隔相等的一段时间进行采样)和非均匀采样,每秒钟采样的次数称为采样频率。 量化把信号幅度划分成若干小段,若每段都是相等的,称为线性量化,否则称为非线性量化。 编码 按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于纠错、同步和控制的信息。,5,声音信号的数字化,采样频率根据奈奎斯特理论,采样频率不低于声音信号最高频率的两倍。这样就能把数字表达的声音还原成原来的声音,称为无损数字化。 采样精度用样本值的二进制
3、位数来表示。位数越多精度越高,数据量也越大。,6,音频编码的目的在于压缩数据。在进行压缩时,要在音频质量、数据量、计算复杂度三方面进行考虑。音频编码的分类: 基于人的听觉特性进行编码(波形编译码器) 其目标是使重建语音波形保持原波形的形状。适应性强,音频质量高,但压缩比不大。如:PCM、DPCM、APCM、ADPCM 基于音频的声学参数进行参数编码(音源编译码器) 这类编码数据率低,但质量清晰度低。 混合编码 如,码本激励线性预测编码(CELP) 音频编码算法的评价 数据的压缩必然引起音频质量的降低。评价编码/解码器一般根据以下几个参数:音频质量、数据率、编码/解码延时和算法复杂度。,3.1.
4、1 音频编码基础,7,音频编码基础,对于音频质量的评价分为客观评定和主观评定。客观评定是通过测量一些特性来评价,如信噪比SNR。广泛使用的是主观评定,以主观意见打分(Mean Opinion Score -MOS)来度量:5 优;4 良;3 中;2 差;1 劣 数字音频的质量与采样频率和量化精度有关。数字音频可分以下几个等级:,SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise),8,音频编码基础,音 质 与 数 据 率,其中混合编码是指波形编码与音源编码方法的混合。,9,音频压缩编码的基本方法,10,脉冲编码调制(Pulse C
5、ode Modulation PCM),波形编码,AF为低通滤波器,WC为采样器,SS为量化间隔生成器 在量化中将量化值表示成: x(n)=x(n)+e(n), e(n)为量化误差(量化噪声),11,PCM的量化方式,均匀量化又称线性量化,用相等的量化间隔对采样得到的信号作量化。这种方法对大/小输入信号都用相同的量化间隔。 为了满足幅度大的输入信号,同时又满足精度的要求,就需要增加样本位数。话音信号出现大信号的机会不多,增加的样本位数没有充分利用。,12,PCM的量化方式,非均匀量化是对大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样在满足精度的情况下,样本数据用较少的位数来表
6、示。 瞬时压扩:根据CCITT的G.711标准,对非均匀量化有律压扩和A律压扩。量化前用对数函数将幅度压缩,解码后再用指数函数进行幅度扩张。,13,瞬时压扩,律压扩 用于北美和日本等地的数字电话通信中,量化输入/输出关系为: 为确定压缩量的参数,反映最大与最小量化间隔之比。 A律压扩 用于欧洲和中国等地的数字电话通信中,量化输入/输出关系为:,14,PCM在通信中应用,PCM早期主要用于话音通信中的多路复用。在电信网中,传输媒体费用约占总成本的65%,设备费用占总成本的35%。提高线路利用率的两种方法: (1)频分多路复用(FDM) Frequency-division multiplexin
7、g,即把传输信道的频带分成好几个窄带,每个窄带传送一路信号。为确保各信道不相互干扰,相邻子信道中留一定间隔,这是模拟载波通信的主要手段。 (2)时分多路复用(TDM) Time-division multiplexing,即把传输信道按时间分割,每个用户一个时间间隔,每间隔传输部分信号,多用户共用一传输线路,这是数字通信的主要手段。,15,话音的采样频率f=8000Hz,其采样周期为125s,这个时间称为一帧。在该时间内的话路数有24路制和30路制。 每秒传输8000帧,每帧有24个时间片和一个同步位,在一个时间片内传输8位数据,故一帧有24*8+1=193位,数据传输率为: R=8000*1
8、93=1544Kb/s 每个话路的传输率为:8000*8=64Kb/s 对30话路的传输率可用相同方法计算,12帧一复帧,16,TDM已广泛地应用在数字电话网中。通常用“群(Group)”来表示PCM信号的复用程度。一次群(基群)30或24路,二次群120路或96路,三次群480路或384路。,17,增量调制(Delta Modulation-DM),增量调制又称调制,是一种预测编码技术。 PCM是对实际的采样信号的整个幅度进行量化编码,它具有对任意波形进行编码的能力。 DM是对实际的采样信号值与预测值之差的极性进行编码。正用1表示,负用0表示。DM编码只需一位,故称“1位系统”。 输入信号的
9、实际值用yi表示,输入信号的预测值用 yi = yi-1 表示。 为量化阶大小,假设为均匀量化。 Xi表示在i点的编码输出。 在开始位置,输入信号y0=0,预测值y0=0,x0=1。,18,斜率过载:增量大小不能跟上输入信号的快速变化,这种现象称为增量调制器的斜率过载。 粒状噪声:在输入信号的缓慢变化部分,也即输入信号与预测值接近0的区域,增量调制器的输出出现交变的0和1,这种现象称为增量调制器的粒状噪声。,在采样点i=1处,预测值y1=,由于实际输入信号大于预测值,因此x1=1; ;其他情况依此类推.,增量调制(Delta Modulation-DM),19,自适应增量调制(ADM),使增量
10、调制的量化阶能自适应,也就是根据输入信号斜率的变化自动调整量化阶的大小,以使斜率过载和粒状噪声减到最小。 宋Song(1971):当DM输出值不变时,量化阶增大50%,使预测器的输出跟上输入信号的变化;当输出值改变时,量化阶减小50%,使粒状噪声减到最小。 Greefkes于1970年提出的连续可变斜率增量调制(CVSD):如果输出连续出现3个相同的值,量化阶就加一个大的增量,反之就加一个小的增量。,20,自适应脉冲编码调制(APCM),APCM (Adaptive Pulse Code Modulation)是一种根据输入信号幅度大小来改变量化阶大小的PCM方法。 改变量化阶大小的方法有两种
11、:前向自适应和后向自适应。 前向自适应是根据未量化的样本值的均方根值来估计输入信号的电平,以此来确定量化阶的大小,并对其电平进行编号作为边信息传输到接受端。 后向自适应是从量化器刚输出的过去样本中提取量化阶信息。,21,差分脉冲编码-DPCM,DPCM(Differential Pulse Code Modulation,差分脉冲编码调制)与PCM不同,它编码的不是采样样本值,而是样本值及其预测值的差分,即量化的是已知的样本值与预测值之间的差值。 DPCM是从过去的几个采样值的线性组合来预测推断现在的采样值,进而用实际采样值与预测采样值之差(称作预测误差)进行编码,从而达到信息压缩的一种方法。
12、,22,差分脉冲编码调制(DPCM),差分脉冲编码调制是对实际样本值与预测值之差进行编码,从而在一定程度上减少量化的位数。 预测值是根据过去样本的估算值去估算的下一个样本的幅度值。,d(k)是输入信号S(k)和预测器输出的估算值Se(k-1)之差。Se(k-1)是S(k)的预测值。Sr(k)是差分信号dq(k)与过去的样本信号的估算值求和得到。,DPCM的工作示意图,23,差分脉冲编码,差分脉冲编码调制的概念如图。差分信号 是离散输入信号 和预测器输出的估算值 之差。注意, 是对是 预测值,而不是过去样本的实际值。DPCM系统实际上就是对这个差值 进行量化编码,用来补偿过去编码中产生的量化误差
13、。它实际上是一个负反馈系统,采用这种结构可以避免量化误差的积累。重构信号 是由逆量化器产生的量化差分信号 ,与对过去样本信号的估算值 求和得到。它们的和,即 作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收端都使用相同的逆量化器和预测器,所以收发两端可以从同一个传送信号 获得相同的量化差分信号 和重构信号 。,24,ADPCM综合了APCM的自适应特性和DPCM特性。,自适应差分脉冲编码调制(ADPCM),25,子带编码 (SBC),子带编码的主要过程是: 使用一组滤波器(BPF)把输入音频信号的频带分成若干个连续的频段。 对每个子带中的音频信号采用单独编码方案去编码。可用PCM、
14、APCM和ADPCM等。 在信道上传输时,每个子带上的信息复合起来。 在接受端,每个子带上的信息单独译码,然后把它们组合起来,还原成原来的音频信号。,26,子带编码(SBC)的好处,每个子带分别自适应控制,高能量电平的子带可用大的量化阶去量化,以减少总的量化噪声; 可根据每个子带信号在感觉上的重要性,为每个子带分配不同的位数。,27,SB-ADPCM编码,在子带自适应差分脉冲编码调制(sub-band adaptive differential pulse code modulation,SB-ADPCM)技术中,用正交镜像滤波器(QMF)把频带分割成两个等带宽的子带,分别是高频子带和低频子带
15、。 在每个子带中的信号都用ADPCM进行编码,低频带宽略大于常规的电话话音带宽。对高子带分配2位表示每个样本值,而低子带分配6位。因为64 kb/s的G.722标准主要还是针对宽带话音,其次才是音乐。,28,音源编码,音源编译码的思想是从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。,音源编码原理示意图,29,肺中的空气受到挤压形成气流, 气流通过声门(声带)沿着声道 (由咽、喉、口腔等组成)释放 出去,就形成了话音。 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。 话音信号具有很强的相关性(短期相关、长期相关)。,音源编码,发声原理,30
16、,语音分类: 浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。 / b / d / g / 清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 / p / t / k / 爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。,音源编码,浊音段的波形举例,音节周期大约8ms,浊音段的功率谱密度,清音段的波形举例,清音段
17、的功率谱密度举例,31,32,音源编码,针对话音的音源编译码器叫做声码器。 声码器的原理是模仿人类发音器官喉、嘴、舌的组合,将该组合看作一个滤波器,人发出的声音使声带振动就成为激励脉冲。当然“滤波器” 脉冲频率在不断地变换,但在很短的时间(10ms30ms)内观察它,则发音器官是没有变换的,因此声码器要做的事是将话音信号分成20ms的段,然后分析这一时间段内所对应的滤波器的参数,并提取此时的脉冲串频率,输出其激励脉冲序列。,话音生成模型,周期脉冲序列发生器,伪随机噪声产生器,周期,时变数字滤波器,音量控制,声道参数,语音 输出,浊/清选择,33,34,线性预测编码(LPC),线性预测编码(li
18、near predictive coding,LPC)是音源编码(参数编码)的一种。 LPC通过分析话音波形产生声道激励和转移函数的参数,对声音波形的编码实质就是对这些参数进行编码 接收端根据这些参数通过语音合成器重构话音。 合成器是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。LPC要编码的就是这滤波器的系数。,35,预测概念,线性预测编码(LPC),滤波器又是预测器,它描述为过去P个样本的线性组合。 LPC假定由无声话音段(白噪声)激励 或有声话音段(脉冲串)激励。解码时,需知道滤波器参数外,还需知道采用何种激励及其特征如何。,36,音源编码,简化的声音生成模型,声道模
19、型,残差误差(residual error)即线性预测误差为,37,混合编译码,混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。 波形编译码器虽然可提供高话音的质量,但数据率低于16 kb/s的情况下,在技术上还没有解决音质的问题; 声码器的数据率虽然可降到2.4 kb/s甚至更低,但它的音质根本不能与自然话音相提并论。,38,混合编译码,为了得到音质高而数据率又低的编译码器,历史上出现过很多形式的混合编译码器,但最成功并且普遍使用的编译码器是时域合成-分析(analysis-by-synthesis, AbS)编译码器。 这种编译码器使用的声道线性预测滤波器模型与线性预测编码(l
20、inear predictive coding,LPC)使用的模型相同,不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是企图寻找一种激励信号,使用这种信号激励产生的波形尽可能接近于原始话音的波形。,39,时域合成-分析编码 (AbS),混合编码,AbS通过调节激励信号u,使话音输入s与重构信号之差为最小。它通过合成许多不同的近似值来分析输入话音信号,这正是其名称的由来。 译码器端根据滤波器的参数和激励信号,通过合成滤波器重构话音。,40,混合编码,AbS编译码器由Atal和Remde在1982年首次提出,并命名为多脉冲激励(multi-pulse excited,MPE)编译
21、码器,在此基础上随后出现的是等间隔脉冲激励(regular-pulse excited,RPE)编译码器、码激励线性预测CELP(code excited linear predictive)编译码器和混合激励线性预测(mixed excitation linear prediction,MELP)等编译码器。 MPE,RPE和CELP编译码器之间的差别在于所使用的激励信号的表示方法。,码激励线性预测(CELP)编码,它试图通过复杂的激励描述机制来弥补简单的LPC模型在语音质量上的缺陷。它使用一个完整的激励向量集合,即一个码本,来和真实的语音匹配,把最佳匹配项的序号发送出去。与仅使用双状态激励
22、的LPC相比,CELP的声音质量好得多,可以满足音频会议要求。 在CELP中使用两种预测方法来消除信号冗余,长时预测LTP和短时预测STP。,41,42,CCITT和ISO先后提出了一系列有关音频的编码建议。 分别应用于窄带话音信号、宽带话音信号、图像伴音信号、数字移动通信GSM信号等等。,3.1.2 编码标准介绍,43,音频编码算法和标准一览,44,电话质量的语音压缩标准,ITU-TS建议的语音压缩的标准 G.711:采用PCM编码,采样速率为8kHz,量化位数为8bit,对应的比特流速率为64 kbit/s。 G.721: ITU建议的G.721将64Kbps的比特流转换为32Kbps的流
23、,它是基于ADPCM技术。每个数值差分用4位编码,其采样率为8kHz。,45,电话质量的语音压缩标准,G.723: G.723是ITU制定的适用于IP电话的语音编码,因其高质量、低码率而得到广泛应用。G.723为双速率语音编码器,有5.3和6.4 kbps两种工作状态,可随时切换,分别采用代数码线性预测激励(ACELP)和多脉冲最大似然量化(MP-MLQ)激励的编码器。其音质不如非压缩的 G.711PCM 标准以及基于 SB-ADPCM 的 G.722标准。G.723.1和G.723.2用于H.324标准。 G.728:它的比特率为16Kbps,带宽限于3.4kHz。其音质与32Kbps的G.
24、721标准相当。它基于一种称为低延迟代码激励线性预测(LDCELP)的向量量化技术。,46,G.721 ADPCM编译码器,G.711标准是CCITT为话音信号频率为3003400 Hz制定的编译码标准,其采样率为8 kHz、8位/样本、数据率为64 kb/s,属于窄带音频信号编码。现代的话音编码技术已经可以减少数据率,而又不致于显著降低音质。 CCITT又制定了8 kHz采样率、4位/样本、32 kb/s的G.721标准,以及G.721的扩充标准G.723。 CCITT推荐的G.721 ADPCM标准是一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或律PCM速率和32
25、kb/s速率之间的相互转换。,47,图中,A律或律PCM输入信号转换成均匀PCM。差分信号等于均匀PCM输入信号与预测信号之差。“自适应量化器”用4位二进制数表示差分信号,但只用15个数(即15个量级)来表示差分信号,以防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号,这样就构成了一个负反馈回路。,48,G.721 ADPCM编译码器的输入信号是G.711 PCM代码,采样率是8 kHz,每个代码用8位表示,因此它的数据率为64 kb/s。而G.721 AD
26、PCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了21的数据压缩。,49,电话质量的语音压缩标准,CELP(码本激励线性预测)是一种常用的语音压缩技术。它用于美国联邦标准1016,可将语音压缩至4.8Kbps。美国联邦标准1015使用 CELP的一个简本,称为线性预测编码(LPC)。 LPC10E标准可以运行于2.4Kbps。采用了一种向量量化方法。声音听起来有点象机器在说话, 但4.8Kbps与电话差不多。 这两种标准主要用于保密话音通信。,50,调幅广播质量的音频压缩标准,调幅广播质量:50Hz7kH
27、z,称“7kHz音频信号”。 若使用16Khz的采样频率和14位的量化位数,则调幅广播的信号速率为224kbps,1988年ITU制定了G.722标准把信号速率压缩成64kpbs。 G.722标准的数据率保持64kb/s,但音频信号采样频率由8kHz提高到16kHz,是G.711PCM采样率的2倍,因而被编码信号的频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。对话音信号质量来说,提高采样率并无多大改善,但对音乐一类信号来说,其质量却有很大提高。,51,G.722 SB-ADPCM标准,G.722编译码系统采用子带自适应差分脉冲编码调制(sub-band adaptive differential pulse code modulation,SB-ADPCM)技术。在G.722编译码系统中,用正交镜像滤波器将频带分为高、低两个独立的子带信道分别采用差分脉码调制算法编码,再混合形成输出码流。高、低两子带编译码器都采用8KHZ采样频率,但分别分配2位和6位表示样本值,最终传输速率为64Kbps。,52,G.722 SB-ADPCM标准,在某些应用场合中,也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026江苏盐城市射阳县陈洋实验初级中学春学期学科教师和管理人员招聘13人备考题库含答案详解(轻巧夺冠)
- 2026上海第二工业大学管理岗等工作人员招聘10人备考题库及答案详解(全优)
- 2026上半年吉林通化市事业单位招聘应征入伍高校毕业生备考题库及答案详解(典优)
- 2026年1月四川乐山市五通桥区发展产业投资有限公司招聘11人备考题库及答案详解(各地真题)
- 2026天津津南国有资本投资运营集团有限公司及实控子公司招聘工作人员招聘11人备考题库附答案详解(培优)
- 2026四川宜宾市第八中学校招聘教师3人备考题库及参考答案详解一套
- 2026云南众城现代产业合作发展有限责任公司招聘备考题库带答案详解(夺分金卷)
- 2026四川巴中市通江产业投资集团有限公司及下属企业招聘11人备考题库带答案详解(培优a卷)
- 2026安徽职业技术大学招聘12人备考题库带答案详解(考试直接用)
- 2026年1月四川乐山市五通桥区发展产业投资有限公司招聘11人备考题库及一套答案详解
- 拒绝黄赌毒知识培训简报课件
- JJF 2251-2025波长色散X射线荧光光谱仪校准规范
- 机车修理工艺管理办法
- 生物(全国新高考Ⅰ卷)2024年普通高等学校招生全国统一考试生物真题试卷及答案
- 猪场场防疫工作报告
- 鼻眼相关解剖结构
- 视频拍摄框架合同协议
- GB/T 43982.11-2025地下供水管网非开挖修复用塑料管道系统第11部分:软管穿插内衬法
- 2024年面向社会公开招聘城市社区工作者报名表
- 佛山市离婚协议书范本
- 产品安全保证书
评论
0/150
提交评论