四川大学计算机学院多媒体基础语音编码_第1页
四川大学计算机学院多媒体基础语音编码_第2页
四川大学计算机学院多媒体基础语音编码_第3页
四川大学计算机学院多媒体基础语音编码_第4页
四川大学计算机学院多媒体基础语音编码_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、陈虎声音概述v声音是携带信息的重要媒体 音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性v传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息 为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话语音识别 为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐语音和音乐合成声音概述 声音是听觉器官对声波的感知,而声波是通过空气或其他媒体传播的连续振动 声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上 声音用电表示时,声音信号在时间和幅度上都是连

2、 续的模拟信号,如图3-1所示 声波具有普通波所具有的特性,例如反射 、折射和衍射等声音概述v人的听觉器官能感知的声音频率大约是2020kHz,在这种频率范围里感知的声音幅度大约在0120dB 语音信号(speech):人说话的信号频率通常为3003400Hz 亚音信号(subsonic):小于20Hz的信号 超声波信号(ultrasonic):高于20KHz的信号声音概述v在组合声音信号的一系列分量信号音波中,最低频的音波称为基音,其余音波称为泛音v声音的三要素:音调、音色、音强 音调(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了” 音色:是由混入基音的泛音所决定的,如果中高

3、泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同 音强(响度) :取决于声音的幅度(分贝)声音的数字化v模拟音频:时间和幅度上都是连续的 模拟磁性录音技术,受电磁性能影响较大v数字音频:时间和幅度上都是离散的 计算机、数字CD、数字磁带(DAT)A/D转换模拟音频数字音频声音的数字化v采样(sampling):时间上的离散化v量化(quantization):幅度上的离散化声音的数字化v采样定理(Nyquist theory) 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音 人类听觉的频率范围大约为:2020kHz,为保

4、证不失真,采样频率应在40kHz左右 常用的采样频率有:8kHz, 11.025kHz, 22.05kHz, 16kHz, 37.8kHz, 44.1kHz, 48kHzfs = 2fmax声音的数字化v采样精度: 度量声音波形幅度的精确程度,用每个声音样本的 位数(即bps)表示,例如每个声音样本用16位表示,测得的声音样本值是在 065535范围里的数,它的精度是1/65536 例如每个声音样本用16位表示,测得的声音样本值是在 065535范围里的数,它的精度是1/65536 精度是在模拟信号数字化过程中度量模拟信号的最小单 位,因此也称量化阶(quantization step siz

5、e) 01 V的电压用256个数表示,量化阶等于1/256 V声音的数字化v样本位数的大小影响到声音的质量,位数越多,声 音质量越高,所需存储空间也越多;位数越少,声 音质量就越低,所需存储空间也越少 电压范围电压范围 量化量化 编码编码 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 1008位:256个量化级(0255)16位:65 536个量化级16位量化级足以表示从人耳刚刚听得见的极细微的声音到

6、感觉难以忍受的巨大噪声这样大的声音范围声音的数字化v采样精度的另一种表示方法是信号噪声比, 简称为信噪比v其中,Vsignal表示信号电压,Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数 字数值之间的差值),SNR的单位为分贝(db) 声音编码v声音信号经过数字化以后将产生大量的数据。为了降低存储和传输成本,有必要对数字音频数据进行压缩编码 如:CD音频数据(未经压缩):数据率:44.11000162 = 1.41M bit/s1小时CD音频的数据量约为635Mv音频编码的可能性 声音信号中包含大量的冗余信息声音编码v从信息保持角度讲,只有当信源本身具有冗余度(redundan

7、cy),才能对其进行压缩v时、频域信息的冗余 如幅度的非均匀分布、样本间的相关等等v人的听觉感知机理 语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功声音编码v编码算法的评价 声音的清晰度和自然度难以度量,评价十分困难 具有重要意义v评价的主要依据 音频质量 数据率 计算复杂度v音频编码目标 低码率、短延时、高质量声音编码v音频质量评价方法分为两类: 客观测量法:信噪比(SNR) 主观测量法:主观平均判分法(mean opinion score, MOS),一般采用5分制分数质量级别失真级别5优无察觉4良(刚)察觉但不讨厌3中(察觉)有点讨厌2差讨厌但不反感1劣极讨厌(令人反感

8、)语音的形成原理v肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。v 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。v 话音信号具有很强的相关性(长期相关、短期相关)。语音的分类v浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。v清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信

9、号。v爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。语音技术的研究热点v话音压缩编码(Speech Coding)v话音识别(Speech Recognition)v文本话音转换(Text To Speech)语音编译码器A/D话音编码信道编码信道信道译码话音译码D/A衡量语音编码器的参数v数据输出速率v延迟时间v话音质量v价格(实现代价)语音质量等级划分v广播质量:带宽为7000Hz的高质量话音v长途电话质量:带宽为3400Hz,信噪比为30db,有失真v通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。v合成质量:8090的可懂度,听

10、起来象机器讲话,失去了讲话者的特征语音编码器的分类v语音编码的分类 基于数据的统计特性进行编码 波形编码:目标是使重建语音波形保持原波形的形状,如PCM、DPCM、APCM、ADPCM等算法。 特点:音质好、但数据率较大 基于声学参数进行参数编码 音源编码:目标是使重建音频保持原音频特性,如LPC 特点:数据率低、质量差、保密性好(军事) 混合编码 将波形编码和音源编码很好的结合起来,如CELPC 特点:在较低的码率上得到较高的音质语音编码器的对比v三种编译码器的话音质量和数据率的关系语音信号的冗余度v幅度非均匀分布v样本之间的相关性v周期之间的相关性v基音之间的相关性v静止系数(话音间隙)v

11、长期相关性(long term correlation)PCM PCM是pulse code modulation的缩写 概念上最简单、理论上最完善、最早研制成功、使 用最为广泛、数据量最大的编码系统PCMv图中输入是模拟信号,输出是PCM样本。 防失真滤波器:低通滤波器,用来滤除声音频带以 外的信号 波形编码器:可理解为采样器 量化器:可理解为“量化阶大小(step-size)”生成器或 者称为“量化间隔”生成器v PCM实际上是模拟信号数字化 模拟声音数字化的两个步骤: 第一步是采样,就是每隔一段时间间隔读一次声音 的幅度 第二步是量化,就是把采样得到的声音信号幅度转 换成数字值PCM时分

12、多路复用 PCM编码早期主要用于话音通信中的多路复用 时分多路复用是在同一条通信线路上使用不同时段 “同时”传送多个独立信号的通信方法 时分多路复用的核心思想是将时间分成等间隔的时 段,为每对用户指定一个时间间隔,每个间隔传输 信号的一部分 例如,话音信号的采样频率f8000 Hz/s,它的采样 周期125 s,这个时间称为1帧(frame)。在这个时 间里可容纳的话路数有两种规格24路制 30路制PCM时分多路复用v 24路制的重要参数如下: 每秒钟传送8000帧,每帧 125s 12帧组成1复帧(用于同步)。 每帧由24个时间片(信道)和1 位同步位组成 每个信道每次传送8位代码, 1帧有

13、24 8 1193位(位) 数据传输率R8000193 1544 kb/s 每一个话路的数据传输率 80008=64 kb/sPCM时分多路复用v30路制的重要参数如下: 每秒钟传送8000帧,每帧125s 16帧组成1复帧(用于同步) 每帧由32个时间片(信道)组成 每个信道每次传送8位代码 数据传输率:R80003282048 kb/s 每一个话路的数据传输率80008=64 kb/s v线路利用率 使用时分多路复用技术时,由于当信道无数据传输 时仍给那个信道分配时间槽,因此线路利用率较低 为解决这个问题,开发了统计时分多路复用技术 (statistical time division m

14、ultiplexing, STDM)。STDM 是按照每个传输信道的传输需要来分配时间间隔的 时分多路复用技术,可提高传输线路的效率PCM时分多路复用v数字通信线路的数据传输率 为反映PCM信号复用的复杂程度,通常用“群(group)”这个术 语来表示,也称为数字网络的等级 传输容量由一次群(基群)的30路(或24路),增加到二次群的120 路(或96路),三次群的480路(或384路), 下图表示二次复用的示意图。图中的N表示话路数,无论N 30还是N24,每个信道的数据率都是64 kb/s,经过一次复用 后的数据率就变成2048 kb/s(N30)或1544 kb/s(N24) 在数字通信

15、中在北美,具有1544 kb/s数据率的线路叫做“T1远距离数字通信线 路”,提供这种数据率的服务级别称为T1等级 在欧洲,具有2048 kb/s数据率的线路叫做“E1远距离数字通信线 路”,提供这种数据率的服务级别称为E1等级 T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率PCM时分多路复用PCM时分多路复用vT1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率增量调制 调制(delta modulation,DM),是一种预测编码技术 对实际的采样信号与预测的采样信号之差的极性进行编码。 如果实际的采样信号与预测的采样信号之差的极性为“正”,则 用

16、“1”表示;相反则用“0”表示,或者相反 由于DM编码只须用1位对话音信号进行编码,所以DM编码系 统又称为“1位系统” 比较:PCM是对每个采样信号的整个幅度进行量化编码增量调制自适应增量调制 根据输入信号斜率的变化自动调整量化阶的大 小,以使斜率过载和粒状噪声都减到最小。 在检测到斜率过载时开始增大量化阶,而在输入 信号的斜率减小时降低量化阶 例如,宋(Song)在1971描述的ADM技术中提出:每当输出 不变时量化阶增大50%;每当输出值改变时,量化阶减小 50% 又如,由格林弗基斯(Greefkes)在1970年提出的连续可变斜 率增量调制(CVSD)的基本方法是:如果连续可变斜率增量

17、 调制器的输出连续出现三个相同值时,量化阶加一个大的 增量,反之,就加一个小的增量。自适应增量调制 Motorola公司于20世界80年代初期开发了实现CVSD 算法的集成电路芯片, 如MC3417/MC3517用于一般的数字通信,MC3418/MC3518用于数字电话。 MC3417/MC3418用于民用,MC3517/MC3518用于 军用APCM 中文术语为自适应脉冲编码调制,adaptive pulse code modulation的缩写 根据输入信号幅度大小来改变量化阶大小的一种 波形编码技术 自适应 瞬时自适应,即量化阶的大小每隔几个样本就改变 音节自适应,即量化阶的大小在较长时

18、间里发生变化APCM 前向自适应(forward adaptation):根据未量化的样本值的均 方根值来估算输入信号的电平,以此来确定量化阶的大 小,并对其电平进行编码作为边信息(side information)传送 到接收端APCM 后向自适应(backward adaptation):从量化器刚输出的过去 样本中提取量化阶信息。由于后向自适应能在发收两端自 动生成量化阶,所以它不需要传送边信息DPCM 中文术语为差分脉冲编码调制, differential pulse code modulation的缩写 利用样本与样本之间存在的信息冗余来进行编码的一种数 据压缩技术 基本思想:根据过

19、去的样本去估算下一个样本信号的幅度 大小,这个值称为预测值,然后对实际信号值与预测值之 差进行量化编码,从而就减少了表示每个样本信号的位数DPCM 它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信 号进行量化编码,而DPCM是对实际信号值与预测值之差 进行量化编码,存储或者传送的是差值而不是幅度绝对 值,这就降低了传送或存储的数据量 可适应大范围变化的输入信号DPCM编码器量化器预测器xkekekxkxk-自适应预测逆量化器量化阶ek产生误差DPCM译码器逆量化器预测器ekekxkxk预测方程式 v线性预测:v 如果ai是常数,则为时不变线性预测,否则为自适应线性预测v 最简单的预测方

20、程:),.,(1321kxxxxfxkk 11)(kiiikxkax1 kkxx最简单的DPCMx0121123344x0012112334适应差分脉冲编码调制 ADPCM的中文术语为自适应差分脉冲编码调制 adaptive difference pulse code modulation的缩写 综合了APCM的自适应特性和DPCM系统的差分特 性,是一种性能比较好的波形编码技术 它的核心想法是: 利用自适应的思想改变量化阶的大小,即使用小的量化阶 (step-size)去编码小的差值,使用大的量化阶去编码大的差值 使用过去的样本值估算下一个输入样本的预测值,使实际

21、样本值和预测值之间的差值总是最小自适应差分脉冲编码调制 接收端的译码器使用与发送端相同的算法,利用传 送来的信号来确定量化器和逆量化器中的量化阶大 小,并且用它来预测下一个接收信号的预测值子带编码(sub-band coding,SBC) 用一组带通滤波器(band-pass filter,BPF)把输入声 音信号的频带分成若干个连续的频段,每个频段称 为子带。对每个子带中的声音信号采用单独的编码 方案去编码 在信道上传送时,将每个子带的代码复合在一起; 在接收端译码时,将每个子带的代码单独译码,然 后把它们组合起来,还原成原来的声音信号子带编码(sub-band coding,SBC) 好处

22、有两个 可对每个子带信号分别进行自适应控制,量化阶的大小可 按照每个子带的能量电平加以调节。具有较高能量电平的 子带用大的量化阶去量化,以减少总的量化噪声 可根据每个子带信号在感觉上的重要性,对每个子带分配 不同的位数,用来表示每个样本值。 例如,在低频子带中,为了保护音调就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数。子带编码(sub-band coding,SBC)图中的编码/译码器可 以采用ADPCM,APCM或PCM 声音频带的分割v树型结构划分 首先把整个声音信号带宽分成两个相等带宽的子带

23、:高频子带和低频子带 然后对这两个子带用同样的方法划分,形成4个子带 这个过程可按需要重复下去,以产生2k个子带,K为分割 的次数 用这种办法可以产生等带宽的子带,也可以生成不等带宽的子带 例如,对带宽为4000 Hz的声音信号,当K=3时,可分为8 个相等带宽的子带,每个子带的带宽为500 Hz;也可生成 5个不等带宽的子带,分别为0,500),500,1000), 1000,2000),2000,3000)和3000,4000v采用正交镜像滤波器(quadrature mirror filter,QMF) 来划分频带语音编码标准v国际上,对语音信号压缩编码的审议在CCITT下设的第15研究

24、组进行,相应的建议为G系列。G.711、G.721、G.722、G.723等 G.711是CCITT为话音信号(3003.4kHz)制定的编码标准。8kHz、8位/样本、64kb/s A律和u律PCM G.721在G.711基础上实现2 : 1的压缩。8kHz、4位/样本、32kb/s ADPCM G.722是CCITT推荐的音频信号编码标准。信号带宽为7kHz,采样频率16kHz,保持数据率仍为64kb/s SB-ADPCM语音编码标准vG.711和G.721:适用于3003.4KHz窄带话音信号,应用于公共电话网vG.722:针对507KHz的宽带语音,应用于综合业务数据网(ISDN)语音

25、编码标准vG.711 标准对于采样频率8kHz,样本精度为13、14位的输入信号,经过A律或u律的PCM编码后的样本精度为8位,输出数据率位64kb/sA 律:u 律:语音编码标准v正输入码与A律输出码的关系语音编码标准vG.721 标准用于64kb/s的A律和u律PCM与32kb/s的ADPCM之间的转换v G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2 1的数据压缩。vG.721 标准所采用的编码方法 -自适应差分脉冲编码调制(ADPCM

26、)语音编码标准v G.721 标准编译码器框图语音编码标准vG.722标准该标准是描述音频信号带宽为7 kHz、数据率为64 kb/s的编译码原理、算法和计算细节。编译码系统采用子带-自适应差分脉冲编码调制(SB-ADPCM) G.722的主要目标是保持64 kb/s的数据率,而音频信号的质量要明显高于G.711的质量。 G.722标准把音频信号采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍 音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。语音编码标准vG.722编译码系统采用SB-ADPCM技术 用正交镜象滤波器(QMF)把频带分割

27、成两个等带宽的子带:高频子带和低频子带 在每个子带中的信号都用ADPCM进行编码。对高子带分配2位表示每个样本值,而低子带分配6位语音编码标准线性预测编码(LPC) 语音压缩技术。将语音生成机理模型化为一个离散 的、时变的、线性的递归滤波器 -编码时使用线性预测分析语音波形产生声道激励和 转移函数的参数,对声音波形的编码实际就转化为 对这些参数的编码,这就可减少声音的数据量 -译码时使用线性预测分析得到的参数,通过语音合 成器重构语音。合成器实际上是一个离散的随时间 变化的时变线性滤波器,它代表人的语音生成系统 模型 时变线性滤波器 分析语音波形时,当作预测器使用 合成语音波形时,当作生成模型使用线性预测编码(LPC)v线性预测器 使用过去的P个样本值来预测现时刻的采样值x(n)线性预测编码(LPC)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论