版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章第五章 语音编码语音编码v语音编码概述语音编码概述v波形编码波形编码v参数编码参数编码v混合编码混合编码21.1.语音编码概述语音编码概述 语音编码又分信源编码和信道编码。本章主要介绍信源编码。语音信号编码(信源编码)与语音信号压缩,实际上是同一技术两个名称。其目的是在给定编码速率条件下,得到尽量好的重建语音质量(或称编码质量),同时应减小编解码延时以及算法的复杂程度。其中,编码质量、编码速率、编解码算法的复杂程度、编解码延时是相互关联的四个主要因素。3u语音信号编码系统的应用u编码-存储-回放系统(数字语音录放)u编码-传输-解码系统(数字语音通信)语音编码器数字存储媒介语音解码器输入
2、语音输出语音语音编码器信道编码器语音解码器输入语音输出语音调制器传输设备及信道解调器信道解码器4u语音信号压缩(编码)方法分类u有损压缩,又分成如下三类:u波形编码波形编码 全频带编码(如PCM、ADPCM)、子带编码(简写SBC)、变换域编码等。u参数编码(声码器)参数编码(声码器) 在语音信号发送端提取语音的特征参数,在接收端以某种最小的失真合成原始信号。如线性预测声码器(简写LPC)。u混合编码混合编码 波形编码参数编码的结合。如如矢量和激励线性预测(简写VSELP)、多脉冲激励线性预测(简写MP-LPC)、码本激励线性预测(简写CELP)、多带激励(简写MBE)等。u无损压缩:如统计编
3、码(霍夫曼编码、算术编码)、游程编码等。5u衡量语音编码性能的主要因素u A.编码质量u客观评定方法。如信噪比、加权信噪比、平均分段信噪比等。适用于速率较高的波形编码类型的算法。u主观评定方法。常采用平均意见得分(Mean Opinion Score,简称MOS得分),判断韵字测试(Diagnostic Rhyme Test,简称DRT得分),判断满意度测量(Diagnostic Acceptability Measure,简称DAM得分)等。主观评定方法因符合人类听觉对语音质量的感觉,目前得到广泛应用。6 平均意见得分(MOS)评分质量尺度妨碍尺度 5 优不察觉 4 良好刚察觉但不可厌 3
4、一般察觉及稍微可厌2 差可厌(但不令人反感)1 很差极可厌(令人反感) u在数字语音通信中,MOS分4.04.5为高质量数字化语音,达到长途电话网的要求,接近于透明信道的编码,也称为网络质量。uMOS分3.5分左右称为通信质量,这时重建话音质量有所下降,但不妨碍正常通话,可以满足多数话音通信系统的使用要求。uMOS分为3.0分以下常称为合成语音质量,是指一些声码器合成语音所能达到的质量,一般具有足够高的可懂度,但是自然度以及讲话人的确认方面不是很好。7判断韵字测试(DRT)u判断韵字测试是反映话音清晰度或者可懂度的一种测试方法,主要用于低速率语音编码的质量测试。这种测试方法使用若干对同韵母进行
5、测试,测试中,让受试者每次听到一对韵母中的某个音,然后让其判断听到的音是哪个字,全体试验者判断正确的百分比就是DRT得分。u通常认为DRT为95以上时清晰度为优,85-95为良,75-85为中,65-75为差,65以下为不可接受。u实际通话中,由于整句中有较多的冗余度,即使个别字听不清楚,也能理解整句话的原因,当清晰度为90时,整句话的可懂度接近于100。测试满意度测量(DAM) 测试满意度测量(DAM)是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一种度量,也是采用百分比评分。8提高语音编码质量的主要途径 u 利用语音信号的冗余度u语音信号样点间的相关性u幅度分布的不均匀性u
6、 利用人耳的听觉特性u听觉的掩蔽效应u听觉对幅度和频率的感知特性9u衡量语音编码性能的主要因素 u B.编码速率 单位为“比特/秒”(b/s),一般以I 表示;或单位为“比特/样点”,一般以R 表示。I 和R 通过采样速率fs 联系起来。即 I = R fs 式中,R 越高,语音质量越高,但对传输带宽的要求也越高。在波形编码中,为了取得高质量的重建话音,一般取R=2 在参数编码中R可以低到0.25甚至0.1以下。信号类型采样频率(KHz)编码速率(Kbps)频率范围(Hz)电话82.4-64300-3400激光唱盘CD44.170020-20000数字广播及数字磁带4870020-200001
7、0u 根据编码速率,语音编码可以分成如下几类:u高速率高速率 32 Kbps 以上u中高速率中高速率 16 Kbps 32 Kbpsu中速率中速率 4.8 Kbps 16 Kbpsu低速率低速率 1.2 Kbps 4.8 Kbpsu极低速率极低速率 1.2 Kbps 以下11u衡量语音编码性能的主要因素 u C.编解码的复杂程度与语音编码的话音质量及硬件实现成本有关,一般来说,增加编码算法的复杂度会增加话音的质量。u D.编解码延时在实时通信中引起延时和回声,必须考虑。 当延时超过100ms时,说话者就会听到自己的回声。122.2.语音波形编码语音波形编码 u 脉冲调制编码(Pulse Cod
8、ing Modulation, PCM)u 均匀量化PCMu 非均匀量化PCMu 自适应量化PCM (Adaptive PCM, APCM)u 差分脉冲编码(Difference PCM, DPCM)u 自适应差分脉冲编码(ADPCM)u 增量调制(Delta Modulation,DM)和自适应增量调制u 子带编码(Sub-band coding, SBC)u 变换域编码13脉冲调制编码脉冲调制编码(PCM) (PCM) u PCM是最简单的波形编码方法,它仅仅是对输入信号进 行采样和量化u 典型的窄带话音带宽限制在4kHz以下,采样频率是8kHzu 量化有均匀量化和非均匀量化两种方式PCM
9、编码原理图采采 样样14均匀量化的信噪比2 . 702. 6log2077. 46.02log10:)()()(:max22BXBSNRnxnyneeex量化信噪比量化误差当语音信号的采样率为8 KHz,采用12 bit/样本 (B=12)量化,SNR65 dB,编码速率为8*12=96 Kbps均匀量化采样输入样本值x(n)量化输出数据y( (n) )非均匀量化采样输入样本值x(n)量化输出数据y( (n) )15非均匀量化的基本思想u 对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。u 对大信号来说,虽然绝对量化误差较大,但是因为:u大信号出现的机会不多;u信
10、噪比(相对误差)与小信号是一致的;u人耳对信号幅度的感知灵敏度是成对数关系 所以对总的话音质量影响不大16律压扩( (-law compand)ompand)与A律压扩律(-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。x(n) 为输入信号,一般规格化为1= x(n) =1,则Xmax=1为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,=0则不压缩,一般取100 = = 500。)(sgn)1ln(| )(|1ln )()(maxmaxnxXnxXnxFny1702000400060008000100001200014000-0.200.202000400060
11、008000100001200014000-0.200.202000400060008000100001200014000-0.200.202000400060008000100001200014000-0.200.2原始语音=50=200=500-law语音编码结果1802000400060008000100001200014000-0.2-0.100.10.202000400060008000100001200014000010020030002000400060008000100001200014000-0.2-0.100.10.20200040006000800010000120001
12、4000-4-2024x 10-3xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准(A=87.6)。1| )(|1 ),(sgnln1| )(|ln11| )(|0 ),(sgnln1| )(|)()(maxmaxmaxmaxXnxAnxAXnxAXAXnxnxAnxAnxFnyA设设 X
13、max=1=120v自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。v改变量化阶大小的方法有两种:一种称为前向自适应(forward adaptation),另一种称为后向自适应(backward adaptation)。vAPCM比一般的非均匀量化PCM能提高信噪比 4-6 dB自适应脉冲调制编码自适应脉冲调制编码(APCM) (APCM) 21前向APCM前向自适应是根据未量化的样本值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进
14、行编码作为边信息(side information)传送到接收端。后向APCM后向自适应是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。22uDPCM采用预测编码的方式传输信号,所谓预测编码就是根据过去的信号样值来预测下一个信号样值,并仅把预测值与现实样值的差值加以量化,编码后进行数字信号传输。在接收端经过和发送端相同的预测操作,低通滤波器便可恢复出与原始信号相近的波形。u其依据是语音信号相邻样本间有很强的相关性(冗余度高),因此相邻样本的差值远小于样本值本身。uDPCM是采用固定预测器与固定量化器的差值脉冲调制,它是分析ADPC
15、M工作原理的基础。差分脉冲编码差分脉冲编码(DPCM) (DPCM) 23111( )( )( )(1)( )( )( ),( )( )( )z( )( )(1)( )( )( )( )( )11( )( ) (x nd nx nx nc nx ne nc nd ne nC zX zzE zC zE zX zX zzzx nx nx n是输入语音信号,是预测误差信号,也称为差值信号或余量信号。是编码语音信号,为解码后的语音信号。假定量化误差为则有。可以得到其 域关系为:从而可得解码语音信号与原信号之间的关系为1)(1)( )x ne nDPCMDPCM的原理图的原理图 误差信号会逐渐累积,导致
16、可能语音出现严重失真24实际实际DPCMDPCM的结构图的结构图 )()()()()(1)()()1)()()()()()(1)()(z1111nenxnxzEzXzzCzXzzEzXzEzXzXzCzzzCzX与原信号之间的关系为从而可得解码语音信号域关系为:其误差信号不再累积25采用采用LPCLPC编码的编码的DPCMDPCM的结构图的结构图 piiipiizazPinxanx11)(:)()(即新的编解码器为:预测中的信号预测关系的差值。这有点像线性之前若干个值之间信号往往采取当前值与实际的编码器中,差分编码器编码器P(z)解码器解码器P(z)u对于相同的量化比特,对于相同的量化比特,D
17、PCMDPCM可以获得比可以获得比PCMPCM更高更高的信噪比,的信噪比,1 1阶阶DPCMDPCM信噪比提高约信噪比提高约5dB.5dB.u在相同的信噪比情况下,在相同的信噪比情况下,DPCMDPCM的比特率比的比特率比PCMPCM小小, , 1 1阶阶DPCMDPCM减少减少1bit1bit, 3 3阶阶DPCMDPCM减少减少2bit2bit,编码速率由,编码速率由64 64 Kbps Kbps 降到降到48 Kbps48 Kbps26uADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心思想是:u用过去的样本值估算下一个输入样本的预测值,线
18、性预测P(z)的系数ai可变,预测误差d(n)更小,量化的电平间隔可以更小,从而减小量化误差使实际样本值和预测值之间的差值。u利用自适应的思想改变量化阶的大小,即用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值;自适应量化可以进一步减小量化误差。u接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。uADPCM已经形成国际标准:如G.721、G.723, 以及G.726uG.726提供4种码率:40、32、24、16 Kbps,其语音质量相当于64 Kbps的PCM编码自适应差分脉冲编码自适应差分脉冲编码(A
19、DPCM) (ADPCM) 27ADPCM系统编码器原理图u每接收到一个语音信号,它根据语音信号的PCM编码按照一定算法得到下次信号的预测值。把本次的语音信号的PCM编码值与上次的预测值进行对比,得到一个信号的差值,这个差值可以用很少的位长来表示。u通过自适应量化技术,根据不同的编码信号自动调整量化的步长,减小量化误差。28G.726 32kb/s ADPCM-编码器u在编码器中先将输入的8位PCM码转换为14位线性码u同预测信号相减产生差值信号u对差值信号进行自适应量化产生4比特的ADPCM代码c(n)u一方面把c(n)送给解码器,u另一方面利用c(n)进行本地解码,得到量化后的差值信号,同
20、预测信号相加得到重建信号。u自适应预测器采用二阶极点,六阶零点的零极点预测器u为了使量化能适应语音、带内数据以及信令等具有不同统计特性以及不同幅度的输入信号,自适应要依据输入信号的特性自动改变自适应数据参数来控制量阶,这一功能由量化器定标因子自适应、自适应速度控制、音信号和转换检测等功能单元完成。输入格式转换差值信号计算自适应量化自适应逆量化自适应预测器量化器自适应定标因子自适应速度控制单频与瞬变检测重建信号计算器PCM码输入)(nc)(nsl)(nd)(nIADPCM输出)(ndq)(nsp)(nsr)(2na)(ntr)(ntd)(ny)(nal音信号和转换检测器 xi(n)c(n)xr(
21、n) xe(n)k2(n)k1(n).目的:在不显著损失目的:在不显著损失语音质量的前提下,语音质量的前提下,将数码率由将数码率由64 Kbps64 Kbps降到降到32 Kbps32 Kbps29G.726 32kb/s ADPCM-解码器u解码器的解码过程实际已经包含在编码过程中,但是增加了线性码到PCM码的转换和同步编码调整单元。u同步编码调整的作用是防止多级同步级联编码工作时产生误差积累,以保持较高的转换质量。输出格式转换自适应逆量化自适应预测器量化器自适应定标因子自适应速度控制单频与瞬变检测重建信号计算器ADPCM码输入)(nI)(ndq)(nsr)(ntr)(ntd)(ny)(na
22、l同步编码调整)(nsPCM)(nsd)(nylc(n) xr(n) xp(n) xd(n) xc(n) k1(n) y(n)30 G.726 ADPCM编译码器的输入信号是G.711 PCM代码。 G.711 PCM码采样率是8kHz,每个代码用8位表示,因此它的数据率为64kb/s。而G.726 ADPCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8kHz,它的数据率为32kb/s,这样就获得了21的数据压缩。313.3.语音参数编码与混合编码语音参数编码与混合编码 u波形编码的目标是再现语音信号的时域波形,在32 Kbps或之上的编码速率下能够得到
23、非常好的语音质量,也可以在24 Kbps或16 Kbps速率下得到可接受的通话质量。但是很难进一步降低编码速率。u参数编码的目标是构造语音的生成模型,发送端传送该模型的参数,在接收端通过该模型来合成还原语音。可以实现很低的编码速率(低至2.4 Kbps)。u混合编码综合利用了参数编码速率低和波形编码音质好的优点,实现了在中低速率下的较高质量的合成语音。32u参数编码的基本思想是利用语音信号生成的声学模型,通过信号分析技术获得关于该模型的频谱包络、基音周期、清浊音判断等的相关信息,在接收端通过这些信息来合成还原语音信号u三种参数编码器u 通道声码器u 共振峰声码器u 线性预测线性预测(LPC)(
24、LPC)声码器声码器33线性预测(LPC)声码器输入输入语音语音线性预测线性预测分析器分析器编码器编码器基基 音音 检测器检测器解码器解码器线性预测线性预测合成器合成器激励信号激励信号产生器产生器合成合成语音语音LPC声码器原理图发送端 接收端u基于全极点模型的LPC分析u编码参数:LPC参数、基音周期、增益、清浊判断u不对预测残差信号进行量化和传输(因此无法得到原来的波形)34LPC参数的编码u10阶的全极点模型LPC分析uLPC参数的选择u 预测系数 aiu 量化误差容易导致系统不稳定(合成滤波器的极点在单位圆外)u 一般不直接对预测参数编码传输u 反射系数 kiu 可以保证合成器的稳定,
25、但是不同的ki值对量化误差的敏感度不一样,需要采用非均匀量化u 用于LPC-10声码器u 线谱对参数LSPu 是最常用的LPC编码参数u 量化误差相对独立,即单个LSP参数的量化误差只会影响其所对应的共振峰的频谱包络,不会影响真个频谱ki和LSP都可以从ai中很容易求得35LPC声码器的相关标准u1976年美国军方确定LPC-10作为2.4 Kbps速率编码器的推荐编码方式u1985年美国官方接受LPC-10作为联邦标准(FS-15)u 速率极低u 合成语音质量很差、很不自然,主要是因为在清浊音的判断以及基音周期的提取上不够准确,合成激励源信号和原来的LPC预测误差信号相差较大u1986年美国
26、第三代保密电话装置(STU-III)采用了LPC-10的增强型, LPC-10eu 改善了激励源:混合激励代替LPC-10中的二元激励;激励脉冲加抖动处理;多脉冲激励u 改进基音提取算法u 采用LSP代替ki36原始语音原始语音低通滤波低通滤波1003600HzA/D变换变换8KHz,12bits预加重预加重计算分析相计算分析相位位基音分析存储器基音分析存储器低通滤波器低通滤波器清清/浊音检测浊音检测2阶逆滤波阶逆滤波AMDF基音提取基音提取基音及清基音及清/浊音校正浊音校正预测器分析存储器预测器分析存储器计算计算RMS计算预测系数计算预测系数2帧参数存储器帧参数存储器2帧参数存储器帧参数存储
27、器参数编码参数编码误差校正和映射误差校正和映射并变串及同步产生并变串及同步产生编码语音输出编码语音输出pitchV/UVRMSRCLPC-10的编码器框图原始语音经过一低通滤波器之后,输入A/D转换器中,以8KHz速率采样得到数字化语音,然后每180个采样分为一帧(22.5ms),以帧为处理单元,提取语音特征参数并加以编码传送。A/D变换后输出的数字化语音,经低通滤波,2阶逆滤波后,再用平均幅度差函数(AMDF)计算基音周期,经过平滑、校正得到该帧的基音周期。同时对低通滤波后输出的数字语音进行清/浊音检测,经平滑、校正后得到改正的该帧的清/浊音标志。37编码语编码语音输入音输入并变串及并变串及
28、同步检测同步检测误差检测误差检测校正解码校正解码参数参数解码解码帧块到基音块的帧块到基音块的转换与插值转换与插值反射系数转换成反射系数转换成预测系数预测系数基音基音产生产生噪音噪音产生产生清清/浊音开关浊音开关综合器综合器计算增益计算增益输出存储器输出存储器去加重去加重D/A变换变换低通滤波低通滤波3600Hz合成语音输出合成语音输出RMSRCpitchV/UV在收端首先通过查表,对码流进行检错、纠错,经过纠错译码后即可得到基音周期、清/浊音标志、增益以及反射系数的数值。译码结果延时一帧输出,使得输出数据可以在过去一帧、现在一帧、将来一帧三帧内进行平滑。由于每帧语音只传输一组参数,考虑一帧内可
29、能有不止一个基音周期,因此要对接收数值进行帧块到基音块的转换和插值。LPC-10的解码器框图38浊音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102误差校正020总计5453LPC-10的码本设计39LPC-10声码器合成语音与原始语音的比较LPC系统中,全部参数量化为2.4kb/s,如果不考虑信道误码,可懂度得分:3.6KHz原始语音 LPC-10合成语音DRT高于95%90%正确DRT(有噪声)92%93%高于82%正确DAM高于654840语音混合编码 uLPC声码器的主要问题:过于简化的二元激励源(周期
30、脉冲或随机噪声)是导致合成语音质量较差的根本原因u混合编码的基本方法就是在LPC声码器的基础上,采用更高质量的波形编码算法来优化激励源信号u激励源采取周期脉冲和噪声信号的混合体(语音的长时 相关模型)u闭环搜索算法合成分析法(analysis-by-synthesis)来选择最佳激励源信号u最佳激励源选择标准:采用感觉加权均方误差最小判决准则41语音信号的短时语音信号的短时- -长时预测长时预测(short-term and long-term predictionshort-term and long-term prediction) u语音信号样本间的短时相关特性u p取值很小,10-12
31、,一般在一个基音周期以内u 由声道共振峰调制产生u语音信号样本间的长时相关特性u P为基音周期u不计长时相关的线性预测合成模型u计入长时相关的线性预测合成模型pkkknsans1)()(激励发生器1/A(Z)语音激励发生器1/A(Z)1/P(Z)语音)()(Pnbunu42u短时预测短时预测 u去除了信号的短时相关性,残差信号近似于声门波激励信号去除了信号的短时相关性,残差信号近似于声门波激励信号u长时预测长时预测u去除信号中相邻基音周期间的相关性,残差信号类似于噪声信号去除信号中相邻基音周期间的相关性,残差信号类似于噪声信号NoImage)1(10)1(11)(PPPzbzbzbzPpkkk
32、zazA11)(pkkknsansnu1)()()(11)()()(kkkPnubnunv语音信号的短时语音信号的短时- -长时预测长时预测(short-term and long-term predictionshort-term and long-term prediction) PbzzP1)(s(n)piiiza1+11)(kkPkzb+_u(n)v(n) 短时预测 长时预测430100200300400500600700800-1010100200300400500600700800-0.500.50100200300400500600700800-0.500.50100200300
33、400500020400100200300400500020406080s(n) u(n) v(n) 0100020003000400010-2100102Frequency (Hz)intensity (dB)01000200030004000100101Frequency (Hz)Intensity (dB)00.20.40.60.81-80-60-40-20FrequencyPower Spectrum Magnitude (dB)00.20.40.60.81-60-40-20FrequencyPower Spectrum Magnitude (dB)语音信号的短时语音信号的短时- -长
34、时预测长时预测(short-term and long-term predictionshort-term and long-term prediction) uu(n)中还有比较明显的周期脉冲,需要较多的量化比特uv(n)中脉冲不再明显,信号更接近于白噪声信号,易于量化0100020003000400010-2100102Frequency (Hz)intensity (dB)01000200030004000100101Frequency (Hz)Intensity (dB)00.20.40.60.81-80-60-40-20FrequencyPower Spectrum Magnitud
35、e (dB)00.20.40.60.81-60-40-20FrequencyPower Spectrum Magnitude (dB)LPC参数谱44u在混合编码算法中,需要对短时预测在混合编码算法中,需要对短时预测(LPC)(LPC)参数、长时预测参数、长时预测参数参数b,b,基音周期基音周期P,P,以及预测残差信号以及预测残差信号v(n)v(n)进行量化编码。进行量化编码。u算法的重点在算法的重点在v(n)v(n)的编码的编码u v(n)v(n)类似白噪声信号类似白噪声信号u 不是直接对不是直接对v(n)v(n)的每个样本点编码(编码速率太高)的每个样本点编码(编码速率太高)u 一种作法是
36、设定一个矢量码本,其中的每一个矢量代表一种可能一种作法是设定一个矢量码本,其中的每一个矢量代表一种可能的的v(n),v(n),对每一帧语音,都是从这个矢量码本中选择其中一个最佳对每一帧语音,都是从这个矢量码本中选择其中一个最佳 矢量作为矢量作为v(n)v(n)的替代品进行合成语音的替代品进行合成语音假定一帧语音有256个样点,如果直接对每个v(n)的样点用8bit量化,需要256*8 bit。假定我们选择的矢量码本中有256个矢量,每一帧语音选择其中一个矢量作为v(n)的近似,则只需要8个bit就可以量化一帧语音的v(n)。u现在问题的关键是如何从这现在问题的关键是如何从这256256个矢量的
37、码本中选择跟当前个矢量的码本中选择跟当前 语音的语音的v(n)v(n)最接近的一个矢量?最接近的一个矢量?NoImage合成分析法(合成分析法(Analysis-by-synthesis) 45基于感觉加权滤波器基于感觉加权滤波器(perceptually weighted (perceptually weighted filter)filter)和合成分析法(和合成分析法(analysis-by-analysis-by-synthesissynthesis)的码字矢量选择算法)的码字矢量选择算法 激励发激励发生器生器线性预测综合线性预测综合滤波器滤波器合成器合成器均方误差最均方误差最小估值小
38、估值感觉加权感觉加权滤波滤波LPC分析分析原始语音信号原始语音信号LPCLPC参数、参数、P P、b b+ +合成语音误差信号v激励发生器是从码本里依次选择一个码字矢量,将所得的合成语音与原始激励发生器是从码本里依次选择一个码字矢量,将所得的合成语音与原始语音相比较,得到一个误差信号,该误差信号经过听觉感知加权后,可以语音相比较,得到一个误差信号,该误差信号经过听觉感知加权后,可以计算其均方误差。计算其均方误差。v比较码本里每一个码字矢量所对应的均方误差,选择误差最小的一个码字比较码本里每一个码字矢量所对应的均方误差,选择误差最小的一个码字适量作为适量作为v(n)v(n)的近似矢量。的近似矢量
39、。46感觉加权滤波器感觉加权滤波器v感觉加权滤波器的依据是人耳的听觉掩蔽效应。在语音频谱中能量较高的频段的噪声相对于能量较低频段的噪声不易被感知,在度量原始语音与合成语音之间的误差时记入此因素,语音能量高的频段允许误差大一些,能量低的频段允许误差小一些。v引入频域感觉加权滤波器来计算二者的误差并使其达到最小:47感觉加权滤波器感觉加权滤波器v取感觉加权滤波器在z域的表达式为:v感觉加权滤波器的特性由预测系数和加权因子确定。r = 1, W(z)=1,没有加权r = 0, W(z)=A(z),加权系数和语音的共振峰(频谱包络)成反比在8KHz采样频率下,一般取r=0.8vW(z)的实际作用就是使
40、得实际误差信号的谱不再平坦,而是有着与语音信号谱相似的包络形状。111( )( )( / )1piiipiiiia zA zW zA z ra r z48感觉加权滤波器感觉加权滤波器05001000150020002500300035004000-20-1001020frequency (Hz)dBFrequency Response for /eyPerceptual Weight Fn. vocal tract filter LP filter A(z)A(z)1/A(z),1/A(z),信号频谱信号频谱包络包络A(z/0.8)A(z/0.8)W(z) (r=0.8)W(z) (r=0.8)可见,加权滤波器跟信号的频谱包络大至成反比关系,也就是说,在信号能量大的地方,误差对整体误差的贡献较小(因为人耳对这些误差不太敏感),信号能量小的地方,误差对整体误差的贡献较大。这样,可以使得所选择的激励源码字矢量合成的语音听觉上效果最好。49u多脉冲激励线性预测声码器多脉冲激励线性预测声码器 (Multi-pulse (Multi-pulse linear predictive coding, MPLPC)linear pred
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员考试县里招特警试题及答案
- 设备维护计划定期调整方案
- 感染性休克血流动力学监测与血管活性药优化策略
- 湖南省郴州市2024-2025学年高一上学期期末教学质量监测政治试卷(含答案)
- 智能制冷设备安装合同模板
- 学校安全教育发言稿
- 2026年电气制造公司车间安全操作管理制度
- 记一次难忘的生日派对写人作文15篇范文
- 呼吸道梗阻的急救试题及答案解析
- 2025年河北省邢台市广宗县留置保安员笔试真题附答案解析
- 品管圈PDCA案例-降低留置针穿刺血管静脉炎发生率成果汇报
- 消化内镜护理进修心得
- 期房草签合同协议书
- 餐饮后厨消防安全专项安全培训
- CJT 288-2017 预制双层不锈钢烟道及烟囱
- nudd质量风险管理流程
- CJJ99-2017 城市桥梁养护技术标准
- 人教版六年级数学上册期末考试卷及答案
- 老年年人脓毒症的急救护理2022.09.03
- 完善低压带电作业安全措施工作注意事项
- JB T 5082.7-2011内燃机 气缸套第7部分:平台珩磨网纹技术规范及检测方法
评论
0/150
提交评论