语音处理3-语音波形的数字编码_第1页
语音处理3-语音波形的数字编码_第2页
语音处理3-语音波形的数字编码_第3页
语音处理3-语音波形的数字编码_第4页
语音处理3-语音波形的数字编码_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第三章语音波形的数字编码本章主要内容引言3.1脉冲编码调制PCM3.2差分脉冲编码调制DPCM3.3增量调制DM3.4波形编码中的自适应技术3.5压缩比特率的其他方法2分散到各节本章主要内容引言3.1脉冲编码调制PCM3.2差分脉冲编码调制DPCM3.3增量调制DM3.4波形编码中的自适应技术3.5压缩比特率的其他方法3引言1语音编码:一种在数字信道高效传输语音的表示方法42编码目标高质量语音高可理解语音低比特率(带宽)低复杂度低时延低传输误差3编码分类波形编码采样量化表示量化值以重建语音波形为目的,力图使重建波形接近原信号波形。有适应能力强,重建质量好等优点,但码率较高,即压缩效率较低。例如:DPCM(ADPCM)、ΔM等都是属于此类。参数表示数字模型为基础模型参数(如:激励源+信道)不忠实波形,只尽可能好地提供相同效果的信号54语音编码的评价主观评价客观评价6MOS-平均意见得分:

组织一定数量的调查用户,各自按照0-5分对接收到的语音质量进行评分(5表示最好,0表示最差),然后进行统计分析得到最终的MOS分值。最著名的MOSMOS=4,电话语音质量的标准。MOS=4或更高,比较好的语音质量,和原始语音听不出区别MOS=3.5~4,通信质量,适于电话通信MOS<3.6,则大部分接听者不能满意这个语音质量。MOS缺点:在现实中,让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的7各编码标准的MOS值8客观的测量方法:SQM/PSQM+感知通话质量测量PESQ感知评估通话质量测量PAMS(英国电信)感知分析测量

-MOS是广泛认同的语音质量标准,因此,无论采用何种方法所有测量方法都必须对应它们的结果对应到最终的平均主观值MOS,以上各方法均最终以MOS值表示。

9客观评价-SNR优点:容易计算缺点:评价不十分符合听觉特性其他:SegmentalSNR……10本章主要内容3.1脉冲编码调制PCM3.2差分脉冲编码调制DPCM3.3增量调制DM3.4波形编码中的自适应技术3.5压缩比特率的其他方法113.1脉冲编码调制PCM12PCM-pulsecodemodulation。3.1.1取样-时间离散化采样过程13TSTSTSTS奈奎斯特取样定律采样频率的选择例如一电话信号频带为300~3.4kHz,fm=3.4kHz,则抽样频率fs≥2×3.4k=6.8kHz。因此,按6.8kHz的频率抽样,可不失真地还原成原话音信号,话音信号的抽样频率通常取8kHz。精确:保留10k内信号,采样率20k可懂:保留3.4k内信号,采样率8k14抗混叠失真滤波器153.44.6阻带通带

过渡带频率/kHz抗混叠-防混叠失真和噪声干扰锐截止模拟低通防市电干扰50Hz100Hz~3.4kHz高质量语音信号处理系统,可以用9阶椭圆滤波器实现3.1.2量化和码化16量化和编码的过程图1、量化的过程-幅度离散化量化器输出

=Q(x)=yi

,|xi|≤|x|<|xi+1|其中:量化器的动态范围:-V--V分层电平:xi

,i=0,1,2,…,M量化电平:yi,i=0,1,2,…,M-1量化间隔(量阶):Δi=xi+1-xi

17-Vx1y1x2y2xMVxM+1yMx3量化器的参数设置问题量化器的参数量化器限幅信号振幅要求1信号振幅要求2则要求:一般取量化器字长B字长B表示的量化电平个数设均匀量化,阶距为则要求18两种量化特性

原码补码192、量化器的性能量化噪声统计模型量化噪声20信号-量化噪声比A分析准备B分析假设量化噪声是平稳白噪声过程量化噪声和信号不相关在量化误差范围内,量化噪声均匀分布

——为满足上述假设,要求:

量化阶距取的足够小(量化电平数目足够多)图3.7:3bit量化和8bit量化的差异21C求量化噪声功率量化噪声分布:在范围内,均匀分布分布密度量化噪声功率为可见,量化噪声与信号大小无关,为一常数;22

D语音信号功率用方差表示定义h:说明:h表示量化器和信号的匹配程度23E目的:信号-量化噪声比信噪比定义用字长表示用分贝表示结论:每bit对SNR的贡献为6dB,即量化器字长增加1位,信噪比增大6dB选定量化器后,量化信噪比仅随信号功率变化24

思考:比特率和信噪比例:要求SNR=60dB,h=4,8kHz取样,问PCM比特率?答:量化器字长比特率=B·fs=12×8kbps=96kbps分析:要降低比特率:fs跟信号频谱有关,无法改变减少量化器字长,两种途径:减少量化噪声的影响减少需编码信息2526解线性PCM的应用16-bitlinearPCMCD中也使用16-bit的linearPCM一张CD可以存储74mins的音乐,计算数据量数据量(字节byte)=采样频率(Hz)×采样精度(byte)×通道数*时间(s)=74mins×60seconds/min×2(channels)×2bytes×44.1kHz=783,216,000bytes=747MBCD存数据,只能存650MB,其他bit要用于做纠错.272WindowsWAV,AppleAIF,SunAU,……

WAVE文件是由若干个Chunk组成的。按照在文件中的出现位置包括:RIFFWAVEChunk,FormatChunk,FactChunk(可选),DataChunk。1)格式详解①RIFFWAVEChunk|

|所占字节数|

具体内容

========================

|ID

|

4Bytes|

'RIFF'

----------------------------------

|Size

|

4Bytes|

----------------------------------

|Type

|

4Bytes|

'WAVE'

----------------------------------

2829②FormatChunk

========================================================

|

|

字节数

|

具体内容

========================================================

|ID

|

4Bytes

|

‘fmt’

----------------------------------------------------------------------------------------

|Size

|

4Bytes

|数值为16或18,18则最后又附加信息

--------------------------------------------------------------------------------------

|FormatTag

|

2Bytes

|编码方式,一般为0x0001

---------------------------------------------------------------------------------------

|Channels

|

2Bytes

|声道数目,1--单声道;2--双声道

--------------------------------------------------------------------------------------

|SamplesPerSec|

4Bytes

|采样频率

----------------------------------------------------------------------------------------

|AvgBytesPerSec|

4Bytes

|音频数据传送速率,

AVERAGE

其值为声道数×每秒数据位数(采样频率

)×每样本的数据位数/8。

------------------------------------------------------------------------------------------

|BlockAlign

|

2Bytes

|数据块对齐单位(每个采样需要的字节数)

其值为声道数×每样本的数据位值/8

------------------------------------------------------------------------------------------

|BitsPerSample|

2Bytes

|每个采样需要的bit数

-------------------------------------------------------------------------------------------

|

|

2Bytes

|附加信息(可选,通过Size来判断有无)

------------------------------------------------------------------------------------------

30

③DataChunk

|

|所占字节数|

具体内容

=========================

|ID

|

4Bytes|

'data'

----------------------------------

|Size

|

4Bytes|

----------------------------------

|data

|

|

----------------------------------

31wav数据的bit位置可以分成以下几种形式:

单声道

|

取样1

|

取样2

|

取样3

|

取样4

|

----------------------------------------------------------------------------------------------------

|

8bit量化|

声道0

|

声道0

|

声道0

|

声道0

-----------------------------------------------------------------------------------------------------------------------

|

双声道

|

取样1

|

取样2

|

----------------------------------------------------------------------------------------------------

|

8bit量化|

声道0(左)

|

声道1(右)

|

声道0(左)

|

声道1(右)

-----------------------------------------------------------------------------------------------------------------------

|

|

取样1

|

取样2

|

单声道

---------------------------------------------------------------------------------------------------

|

16bit量化

|

声道0

|

声道0

|

声道0

|

声道0

|

|(低位字节)

|(高位字节)

|(低位字节)

|(高位字节)

------------------------------------------------------------------------------------------------------------------------

|

|

取样1

|

双声道

-----------------------------------------------------------------------------------------------------

|

16bit量化

声道0(左)

|

声道0(左)

|

声道1(右)

|

声道1(右)

|

(低位字节)

|

(高位字节)

|(低位字节)

|(高位字节)

------------------------------------------------------------------------------------------------------------------------

④wav数据bit位置安排方式32

⑤实例说明一个WAV文件的前段,其内存中存放的数据如下:524946462408000057415645666d7420100000000100020022560000885801000400100064617461000800000000000024171ef33c133c1416f918f934e723a63cf224f211ce1a0d33解读3.1.3减小量化噪声影响一、噪声影响1:342.原因:

根据人的听觉心理,与信号相关的噪声听起来比起无相关的更易使人感到不快尤其当输入是简单信号或在幅度上可与量化台阶相比较时,能使语音信号明显听出信号失真和噪声调制1.现象:当量化器字长比较短,容易出现:

噪声和音量始终保持一个水平,音量大噪声大,音量小噪声小,像背景噪声一样。这样的噪声听起来使人感到非常不快3.解决方案:高频颤动法操作方法:

——把一高频振动加在信号上,通常是一种与音频信号无关的随机噪声(大多数情形中是伪随机噪声),这样输送出去的数字信号不仅包含着音频信号,而且还包含着高频震动噪声。 35为什么可以达到目的??高频颤动法原理:

消除量化噪声和信号之间的相关。

——实质,并未减小量化噪声,而只是将量化噪声转换成了听起来不太令人厌烦的形式。36二、噪声影响问题2372.改进方案-非均匀量化原理:减小小信号量化间隔(阶距),增大大信号的间隔效果:字长不变,小信号的SNR增大,大信号的SNR减小(仍满足要求),使得大小信号时的信噪比趋于一致。1.现象:均匀量化适合振幅均匀分布;而语音信号集中在低振幅区域(laplace分布)均匀量化对小、大信号采用相同的量化阶距,造成大信号时信噪比有余而小信号时信噪比不足。在编码字长一定时,信号幅度越小,SNR越小,影响语音质量。

非均匀量化框图:

级联:非均匀量化=非线性预失真+均匀量化38

压缩特性发送端:压缩器(预失真)

z=f(x)作用:扩张小信号,压缩大信号,把信号变成近似均匀分布。

接收端:扩张器压扩器=压缩器+扩张器A律和μ律

ALawμLaw目前国际上普遍采用容易实现的A律13折线压扩特性和μ律15折线的压扩特性。我国规定采用A律13折线压扩特性。

采用13折线压扩特性后小信号时量化信噪比的改善量可达24dB,而这是靠牺牲大信号量化信噪比(亏损12dB)换来的39A=87.6μ=255G.711建议1972年,ITU-T给出了G.711建议,规定了64kbps的电话语音标准,使用了8bit量化8kHz取样的μ-law或者A-law的非均匀量化方式。北美和日本使用μ=255

的μ-law,世界其他地方使用A=87.56A-law两种压缩方式的特性非常相似,SNR大约都是35dB,性能和12bit的均匀量化器相似40自适应PCM-APCM思考:Δ选取的矛盾:考虑要到覆盖整个信号范围,避免过载失真,Δ应选大些考虑减小量化噪声,Δ选小些解决方法-自适应量化基本思路:让Δ随着输入信号的幅度或者短时能量自适应方法:量化阶距Δ和信号的标准差成正比:41一、前馈自适应量化前馈:从过去的M个取样中估计方差:42编码器框图解码器前馈需要传送内容码字c[n]量化的时变阶距Δ[n]——传送内容较多,bit率较高.43二、反馈自适应量化44反馈:由量化器输出(或码化器输出)估算方差编码器框图反馈需要传送内容:只传送码字,量化阶距可生成——受误码影响严重45解码器三、另外的实现方案等效的方案:时变的增益+固定量化器46四、方差的估计47-信号的短时能量——正比于信号短时能量-量化信号的短时能量1.方差估计方法方差:怎样计算?当信号0均值,平稳过程时,有即:前馈反馈窗函数,短时不同2.方差估计的有效时间483.自适应量化的SNRAPCM性能相对同样字长的μ-lawPCM编码SNR提高4~8dB发现:标准差的变化比原始语音x(n)的变化缓慢很多自适应的节奏阶距和增益的取样频率可以比信号取样频率低很多,不必每个取样计算一次4.前馈中的方差估计A例:选矩形窗,长M。方差估算公式:使用当前时刻以前的x(n-1),x(n-2)……x(n-M)共M个取样,进行方差估算可每隔M个取样计算一次(重叠或不重叠)说明:49B例:前馈时,阶距的确定A.选窗函数值——决定窗宽度传递函数50B.递推方式求取51C.计算方差,控制阶距或增益其中,是系数前馈中矩形窗,长M使用当前时刻以前的x(n-1),x(n-2)……x(n-M)共M个取样,进行方差估算可每隔M个取样计算一次(重叠或不重叠)525.反馈中的方差估计使用当前时刻以前的M个量化值,进行方差估算本章主要内容引言3.1脉冲编码调制PCM3.2差分脉冲编码调制DPCM3.3增量调制DM3.4波形编码中的自适应技术3.5压缩比特率的其他方法533.2差分脉冲编码调制DPCMPCM分析:统计表明,语音样值间存在相关性。PCM编码没有考虑这种相关性,对各样值独立编码。DPCM原理基本思想:

DPCM不直接对样值进行编码,而是对当前的样值与其预值之间的差值(预测误差)进行编码。理由:取样值间的相关性使预值误差比较小,可用较少的字长来进行编码,从而达到数据压缩的目的。54一、DPCM原理1、量化的输入的变化:信号x[n]

差值d[n]其中,x(n)

-当前时刻取样

x(n-1)-前一时刻取样 量化器输入信号方差为:

其中,

为滞后时间1时的自相关

5556

分析:时,差值方差比原信号方差小对量化过程的影响:与差值d(n)匹配的所需的量化器限幅电平较小。若采用与原量化器字长相同时,阶距较小,量化精度高2、DPCM原理框图57583、原方案存在缺陷分析接收端

假设信道无失真可迭代发送端量化器输出量化噪声整个系统的输出对应系统函数59缺陷:量化噪声累积!二、DPCM的改进1、改进方法:

——加入反馈,量化噪声也参与差分60非原一阶差分量化器输入:——当前信号的预测值编码端自解码2、改进后误差分析发送端其中反馈环路的输出发送端传递函数为接收端61——避免了量化噪声累积3、继续改进62简单取相邻样值的差值,不是最小一阶预测p阶预测三、DPCM误差1、量化器误差分析

量化器输出

输入为预测误差说明:量化器输入是差值,非取样本身,方差较小,此时量化器误差e(n)比PCM中会减小63假设信道无失真解码后误差即为量化器误差(预测差值的量化误差),比PCM直接对取样量化,编码误差要小2、DPCM信噪比差值电路功率增益(预测增益)差值量化器信噪比3、提高SNR的途径:提高量化器SNR,和差值信号有关提高预测增益,最佳预测器时,增益最大6465四、最佳预测考虑p阶线性预测器:1.最佳预测:使最小的线性预测器为差值信号的方差其中差值为预测误差 -最小均方准则求:使最小的p个预测系数66求最佳预测器极值问题,等价于求解使下式成立的系数3、最佳预测系数的求取67——正交方程可知系数满足的条件:

进一步可以推出,系数可由自相关来估计:

求最佳预测系数=解标准方程4、最佳预测器特点一定可以改善信噪比对于语音的不平稳很敏感68——标准方程五、自适应差分脉冲编码调制(ADPCM)69ADPCM目的为了提高DPCM的量化信噪比ADPCM方法: 采用了自适应预测和自适应量化技术。1、ADPCM(+自适应量化)前馈自适应量化的DPCM方差可用x(n)计算 -如右图可用d(n)计算702、ADPCM(+自适应预测)A、普通线性预测分析 线性预测优点:最简单的一阶线性预测器,SNR可以提高6dB

线性预测缺点:高阶(10阶以上),SNR的改善不超过12dB最佳线性预测器(固定),对于语音的不平稳很敏感 结论:

——需要自适应预测7172最佳预测器随时间变化,最佳预测系数会失效重新求最佳预测系数:B、自适应线性预测原理a、短时自相关函数用数据窗(移动的)选出语音段,然后求语音段的自相关自相关函数约以音节速度随时间变化,在一帧中基本保持不变表示n时刻对应的自相关函数,j表示滞后时间

——显然,n的取值应该每10~20ms变化一次,即每一帧计算一次自相关(每次p+1个)73b、自适应预测

——预测系数随信号时变特性进行自适应调整,保持预测误差始终最小,可使预测增益Gp最大。时变的最佳线性预测系数=自适应预测 时变的最佳预测,由下式估算预测系数

说明: 每隔一帧(10~20ms),根据计算一次最佳线性预测系数74C、自适应预测的工作方法选择数据窗w(n-m),长N保存n时刻之前的N个数据x(n),x(n-1),…x(n-N+1),存放寄存器中计算出p+1个计算p个预测系数使用此p各预测系数对n时刻后的N个取样进行预测,将预测误差进行量化编码n+N时刻,按上述方法更新预测系数

——前馈自适应线性预测75D、前馈自适应预测框图前馈自适应线性预测76D、反馈自适应预测反馈中的自相关说明:设数据窗宽N,需要求保证估计只用过去时刻的量化值,而不会用到未来的量化值只需要传送码字,不需要传送量化阶距77D、自适应预测分类根据预测使用的数据:根据前N个抽样值或量化值预测当前抽样值根据前M个预测误差来预测当前的抽样值同时根据前N个抽样值及前M个预测误差来预测当前的抽样值根据预测的方向前馈-前向自适应收端要求发端专门发送自适应信息前向自适应需要占用信道的频率资源反馈-后向自适应技术收端采用相同自适应规则获得发端的预测系数变化规律,发端不需要专门发送自适应信息。一般采用多78F、G.721建议1984,CCITT通过ADPCM为国际标准(G.721建议)1986修订,语音质量提高,ADPCM系统的语音质量与A律PCM或律PCM系统基本相同。一路ADPCM语音信号的信息速率为32kbpsADPCM实现64kb/sA律或律PCM到32kb/sADPCM之间的转换,主要用于对原有PCM信道扩容。在长话通信系统中,发端将PCM编码器输出的64kbpsPCM信号送给ADPCM编码器转换为32kbps的ADPCM信号,再按照一定的规则进行复接,就可以在不改变信道带宽的情况使传输的话路数增大一倍。在收端,ADPCM译码器输出速率为64kbpsPCM信号,此信号再经过PCM译码器恢复原始语音信号。7980G721本章主要内容引言3.1脉冲编码调制PCM3.2差分脉冲编码调制DPCM3.3增量调制DM3.4波形编码中的自适应技术3.5压缩比特率的其他方法813.3增量调制DM(M)1、原理对预测误差进行一位编码的DPCM。对于语音信号,当抽样频率足够高时,相邻样值之间的变化很小,用一位代码就可以反映相邻样值的差值变化规律。

DM优点:M编译码设备简单82原理框图一阶线性预测采用了1bit字长的量化器832、DM量化编码特性量化特性量化器字长1bit,仅两个量化电平编码特性84量化编码特性DM量化的简单例子例:对x(n)={4,5,1,0,3,……}编码

量化电平为85n012345604510343-3-23

22-2-2200110

024202实际系统86编码波形示意图873、过载失真和颗粒噪声语音信号大幅度变化,“阶梯波”跟不上信号变化——“过载失真”信号不变化或者变化缓慢,量化后成为等幅震荡——“颗粒噪声”88A过载失真a、什么是过载失真? 预测信号的斜率:

当阶距固定,是一个常数

斜率过载: 输入信号变化斜率>k89此时,码字特点:一连串0或者1当输入信号为正弦信号时,不过载条件为(因)c、注意区分PCM中,过载量化噪声是由于信号幅度过大,超过了量化器的动态范围产生的;DM系统的过载量化噪声是由于信号的变化速率过快,超过了预测信号的变化速度产生的。90b、不出现过载噪声,信号的斜率应满足:B、颗粒失真a、特点:输入信号变化缓慢或者不变化时出现表现为幅度2的震荡码字特点:一连串0和1交替出现的序列b、分析的选取较小,颗粒噪声较小较大,过载失真较小一般,选取较小(颗粒噪声对整个音频范围有影响,人耳易感知),通常加大取样频率以减小过载失真914、DM的信噪比

-1bit字长,量化误差比较严重

-需增加方法:-提高取样频率,通常比奈奎斯特频率高几倍原因-取样频率高,取样相关度高,预测准确,预测误差方差小925、比特率设DM取样频率为信号最高频率,为超取样指数DM的比特率比特率和采样速率相同,说明:超取样指数,等效于采样时,采用的量化器字长936、自适应增量调制(ADM)A、M问题:信号频率高,量阶相对小,量化跟不上变化,产生过载失真。信号频率低,量阶相对大,产生颗粒噪声。

改进:进行自适应量化B、ADM

基本原理: 采用自适应方法使量阶的大小跟踪输入信号的统计特性而变化,信号幅度小时阶距减小,信号幅度大时阶距增大。94反馈ADM框图95C、ADM的实现方法自适应调制阶距的方法很多,常用的两种:方法1:量阶随信号瞬时值变化时,称为瞬时压扩ΔM。1971年song提出方法2:量阶随音节时间间隔(5~20ms)中信号的平均斜率变化,则称为连续可变斜率增量调制,记作CVSD。目前常用,格林弗基斯(Greefkes)1970提出的96方法1:瞬时压扩ΔM阶距调整规则 其中P值的规则为 说明:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论