第9章-线性预测声码器.ppt_第1页
第9章-线性预测声码器.ppt_第2页
第9章-线性预测声码器.ppt_第3页
第9章-线性预测声码器.ppt_第4页
第9章-线性预测声码器.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章线性预测声码器9.1概述线性预测声码器是一种参数编码方法。参数编码利用生成模型,在幅度谱上逼近原语音,但重建语音的波形与原语音信号的波形较大差别。参数编码实现语音通信的设备通常称为声码器;例:通道声码器、共振峰声码器、同态声码器、LPC声码器;本章主要内容:语音压缩的原理与关键技术、LPC声码器的基本原理、LPC-10和LPC-10e标准、混合激励LPC声码器。,9.1.1语音压缩的基本原理压缩依据:语音信号的冗余度和人的听觉感知机理。语音信号中存在多种冗余度,可在时域和/或频域中描述。1.时域冗余度(1)幅度非均匀分布。语音中,小幅值样本出现的概率高。(2)语音信号样本间的相关性很强。语音波形的最大相关性存在于邻近的样本之间。8kHz取样时,相邻样本间的相关系数0.85;相距10个样本,相关系在0.3左右。利用这种较强的一维相关性进行预测编码。,(3)浊语音具有准周期性。浊语音波形是对应于音调间隔周期的长期重复波形。此音调间隔波形可用于预测编码。(4)声道的形状及其变化比较缓慢。以较长的时间(如几十秒)进行统计,可得长时自相关函数;长时自相关函数的统计表明,8kHz取样的相邻样本间,平均相关系数高达沟通0.9。(5)静止系数(语音间隙)。统计表明,话音间隙使全双工话路的典型效率约为通话时间的40%(或静止系数为0.6)。话音间隙本身是一种冗余,可不传或少传静止段信息。,2.频域冗余度(1)非均匀的长时功率谱密度。长时功率谱密度:长时段内功率谱的统计平均,如图9.1(a)。长时功率谱密度呈现强烈的非平坦性。统计观点:未充分利用给定频段,或者说存在着固定的冗余度。特点:功率谱的高频能量较低,直流分量并非最大。(2)特有的短时功率谱密度。图9.1(b):语音的短时功率谱密度。存在共振峰频率和谷值。前三个共振峰决定语音特征。特点:形成高次谐波结构。,3.听觉感知机理(1)人类听觉系统具有掩蔽效应。在不同声压、不同频率处,声音的掩蔽效应是不同的。用掩蔽特性可抑制与信号共存的量化噪声,降低编码速率。(2)人耳对不同频段声音的敏感程度不同。人的听觉对低频端比较敏感,而对高频端不太敏感。即强的低频音能妨碍同时存在的高频音。(3)人耳对语音信号的相位变化不敏感。合适的分析表明:语音压缩编码的极限速率为80100bit/s。此时,只能传送句子内容,讲话者的音质、音调等重要信息已全部丢失。,9.1.2语音编码的关键技术关键技术包括:LPC分析、合成-分析法、感觉加权滤波器1.LPC分析LPC分析是常用技术,在语音识别、语音合成、语音编码和说话人识别等领域获得成功的应用。LPC编码基于跟踪波形的产生过程,而不是波形本身,它传送的是反映整个过程变化的参数。LPC基于全极点模型、时域方均误差最小准则估计模型参数。应用这组模型参数能够有效地降低语音信号的编码速率。语音信号存在短时相关性和长时相关性两种。利用LPC对语音进行这两种相关性的去相关处理后,得到的是预测残差信号。,图9.2:含两种相关性的语音生成模型示意图。短时相关性的传输函数为:长时相关性(谱的精细结构)模型的传输函数为:式中T基音周期。b-q,b-q+1,br长时预测系数,个数在1(q=r=0)到3(q=r=1)之间;通常,长时预测系数的更新周期约为50200次/s。长时滤波是估算短时残差信号中脉冲的周期、相位和增益,再去除这些脉冲,得到了长时滤波残差。再编码,形成激励信号。,2.合成-分析法在LPC算法中,对残差信号直接量化,且使其误差最小,并不能使得原始语音信号和重建信号间的误差最小。采用合成-分析法(AbS)来求得残差信号的编码量化值,才能使重建语音与原始语音的误差最小。AbS是将综合器引入到编码器中,并与分析器结合,在编码器中生成和解码器端相同的重建合成语音。根据误差原则,调整参数使合成语音与原始语音的误差最小。例,在编码器中将激励信号输入LPC综合滤波器,其合成语音和原始语音相比,从而求得使两者方均差最小的激励源。该方法把系统的输出引入编码端,也称作闭环法。相应地,不将输出引入编码端的方法称作开环法。,3.感觉加权滤波器人耳的掩蔽效应和听觉敏感度不同,导致最小方均误差准则评定合成语音的质量时并非为最优。低码率编码中,每个语音样本量化的比特数不到1,故在编码中,更需要利用人耳感知特性,以改进编码性能。Atal等提出了感知加权最小方均误差准则,在高能量段,噪声不易被感觉,允许误差大一些。在低能量段,噪声易被感觉,允许误差小一些。导致:码率不变时,音质会提高;音质不变时,码率降低。引入频域的感觉加权滤波器W(z)来衡量语音之间的误差:式中原始语音和重建语音的Fourier变换;fs取样频率。,如果在高能量频段使W(f)较小,在低能量频段使W(f)较大,就可以抬高前者误差的能量而降低后者误差的能量。由此,感觉加权滤波器的传递函数为式中,=1时,W(z)=1,不加权;=0时,W(z)=A(z),得到的噪声谱能量分布和语音谱能量分布相同,但听音效果不好。W(z)使实际误差信号的谱不平坦,与语音信号谱包络相似。掩蔽效应便产生较好的主观听觉效果。实验表明,8kHz取样时,取0.8较为适宜。加权综合滤波器为:,第9章线性预测声码器9.2LPC声码器的基本原理基于全极点声道模型,采用LPC分析-合成原理,对模型参数和激励参数进行编码传输,编码速率低。图9.3:典型的LPC声码器的原理框图。双重作用:波形编码器的主要作用是用作预测器,声码器的主要作用是建立模型。传输参数:预测系数、基音周期、清/浊音和增益。,直接量化预测系数不合适,因合成误差大,甚至系统不稳定。解决办法:或用较多的bit量化每个预测器系数。或将预测器系数变换成其它参数形式。归纳起来,有以下几种(1)反射系数k1,k2,kp。分析表明:在区间-1,1对反射系数作线性量化是低效的;比特数应非均匀分配,k1和k2的比特数多些(56bit)。(2)对数面积比g1,g2,gp。式中Ai,Ai+1声管第i节和第i+1节的截面积。上式映射,使g呈相当均匀的幅度分布,可以采用均匀量化;参数间相关性低,经内插产生的滤波器是稳定的,需56bit量化。,(3)预测多项式的根k1,k2,kp。对预测多项式A(z)分解因式,有对预测多项式的根进行量化,易保证合成滤波器的稳定性。每个根平均用5bit量化就能精确表示中包含的频谱信息。问题:求根运算量大,计算效率低,故该算法少用。一帧典型的LPC参数包括:1bit清浊音信息、大约5bit增益常数、6bit基音周期、反射系数或对数面积比平均56bit量化(共有812个)每帧共约60bit。若25ms帧,则编码速率为2.4kbit/s左右。,第9章线性预测声码器9.3LPC10声码器LPC10:美国1976年确定的2.4kbit/s语音通信的标准技术。1981年公布作为联邦政府标准FED-STD1015。该算法可合成清晰、可懂的语音,但抗噪能力和自然度欠佳。LPC10e:2.4kbit/s速率,LPC10的增强型。自1986年以来,美国第三代保密电话装置采用LPC10e。本节主要包括:9.3.1发端编码器9.3.2收端解码器9.3.3LPC10声码器存在的问题,9.3.1发端编码器1.编码器图9.4:LPC10编码器框图(帧180个样,帧长22.5ms)预加重滤波器的传输函数:声道滤波器参数RC、增益RMS用准基音同步相位法计算。,2.计算声道滤波器参数RC采用10阶LPC分析滤波器,利用协方差法计算预测系数:a1,a2,a10,(用CholeskyUV分解法对系数矩阵求逆)转换成反射系数RC,或部分相关系数(PARCOR)。(理论上,RC和PARCOR互为相反数)LPC分析采用半基音同步算法,即浊音帧长度取为130个样本以内的基音周期整数倍值,来计算RC和增益RMS。每一个基音周期都可以单独用一组系数处理。清音帧长度为22.5ms的整帧中点为中心的130个样本形成分析帧来计算RC和RMS。,3.计算增益RMS用如下公式计算增益RMS:式中x(i)经过预加重的数字语音;N分析帧的长度。,4.提取基音周期和检测清/浊音输入语音经3dB截止频率为800Hz的4阶Butterworth低通滤波,滤波后信号再经二阶逆滤波。(逆滤波器的系数为前面LPC分析得到的短时谱参数)取样频率降低至原来的1/4,再计算延迟时间为20156个样点的AMDF,基音周期:由AMDF的最小值确定。计算AMDF:公式为式中,=20,21,22,40,42,44,80,84,88,156;相当于在50400Hz范围内计算60个AMDF值。,清/浊音判决:利用模式匹配技术,基于低带能量、AMDF函数最大值与最小值之比、过零率作出的。对基音值、清/浊音判决结果用动态规划算法:在3帧范围内进行平滑和错误校正,从而给出当前帧的基音周期T、清/浊音判决参数U/V。每帧清/浊音判决结果用两位码表示四种状态:00:稳定的清音;01:清音向浊音转换;10:浊音向清音转换;11:稳定的浊音。,5.参数编码与解码LPC10的传输数据流含:10个反射系数:k1,k2,k10,增益RMS、基音周期T、清/浊音U/V、同步信号Sync。同步信号采用相邻帧1、0码交替的模式。编码成每帧54bit。传输44.4帧/s,编码速率为2.4kbit/s。表9.1:浊音帧和清音帧的比特分配。,(1)反射系数的编码、解码用对数面积比gi表示反射系数ki方法编码,其关系为:LPC10,先将ki变换成gi,再查表量化。方法如下:符号转换:对于浊音,ki被向+1偏置。k1和k2作对数面积比后,确定k1和k2的符号,负=1,正=0;对k1和k2的绝对值除以29,若63,取为63,否则取原值。查表9-2得4bit码字再附上符号位,得5bit码为编码输出。,浊音帧:k3k10取整后除以2,加上表9.3中对应的偏置数,再乘上表9-4的比例因子后取整(其值在范围-127127内),用8减去按表9-1分配的比特数的位数右移,剩下的比特数即为编码输出,其中含1位符号位。浊音帧:用表9.5(见下页)对接收的k1和k2解码,对于k3k10加一个量化偏置以补偿量化的影响,然后以发送端相反的相应操作去偏置和去比例因子,即乘以215,取整。,非浊音帧(清音或过渡音):仅发送k1k4;(8,4)Hamming扩展码保护k1k4和RMS的4个高有效位;设4位信息码为m=m0m1m2m3,发送码字v=v0v1v2v3v4v5v6v7,则编码方程为:(最低有效位未编码),(2)RMS参数的编码、解码RMS参数用查表法进行编码、解码。表9.6:数值在2512之间的RMS值用步长为0.773dB的对数码表进行编码和解码。,(3)基音、清/浊音编码、解码60个基音值和清/浊音编码用7bit编码表示。清音/过渡帧:用矢量0000000/1111111表示;60个基音值用码字重量3或4的7bitGray码编码;表9.7:编码方案。解码时,收到的7bit矢量,若码字重量为3或4时,按表9.7的基音周期编码表解码;若码字重量为0或1时,则判定接收帧为清音帧;,若码字重量为7或6时,则判定接收帧为过渡帧;若码字重量为2或5时,则判定接收帧为无效帧。最后按表9.8的比特顺序,组成发送比特流发往线路。,9.3.2收端编码器图9.5:LPC-10收端解码器框图。接收信号经串/并变换及同步后,用查表法进行检错、纠错。译码后的数据经参数解码得:解码参数,结果延时一帧输出。输出数据在过去帧、当前帧和将来帧,共3帧内平滑。每帧只传输一组参数,但一帧内可有不止一个基音周期,因此,要对接收数值进行由帧块到基音块的转换和插值。,(1)参数插值原则。对数面积比参数值每帧插值两次;RMS参数值在对数域进行基音同步插值;基音参数值用基音同步的线性插值;在浊音向清音过渡时对数面积比不插值。每个基音周期更新一次预测系数、增益、基音周期、清/浊音等参数,这个过程在帧块到基音块的转换和插值中完成。,(2)激励源。根据基音周期和清/浊音标志决定要采用的激励信号源。清音帧用随机数作为激励源;浊音帧用周期性冲激序列通过一个全通滤波器来生成激励源,语音合成滤波器输入激励的幅度保持恒定不变,输出幅度受RMS参数加权。给出一组有41个样点的浊音激励信号:若当前的基音周期不等于41个样点,则将此激励源截短或者填零,使之与基音周期等长。,(3)语音合成。用Levinson递推算法将反射参数变换成预测系数。收端合成器应用直接型递归滤波器合成语音。对其输出进行幅度校正、去加重,并变换为模拟信号,最后经3600Hz的低通滤波器后输出模拟语音。,9.3.3LPC10声码器存在的问题(1)损失了语音的自然度。实际语音的残差信号中,有部分既非周期脉冲又非随机噪声;或者低频段是周期脉冲,高频段是随机噪声。采用二元激励代替残差信号,使合成语音听起来不自然。(2)稳健性(Robustness)差。噪声环境下,基音周期和清/浊音判决不易准确提取。噪声较强时,系统性能显著恶化。(3)共振峰位置及带宽估值会有很大失真。失真的原因是浊语音段时域上的周期重复信号使得短时语音谱形接近于线状分布谱。基频较大,且与谱包络中共振峰f1相接近,即f1=1/T。由于LPC谱估计力图使模型谱逼近于信号谱包络,在估计出的谱包络中会出现极其尖锐的峰值。在合成语音中会出现尖峰或较大毛刺,从而影响语音质量。,第9章线性预测声码器9.4增强型LPC10声码器增强型LPC10声码器(简记为LPC10e)是一种改进的,与LPC10算法兼容的声码器。LPC10e的改进主要包括:9.4.1激励源的改善(1)采用混合激励代替简单的二元激励(2)激励脉冲加抖动(3)单脉冲与码书相结合的激励模式9.4.2基音提取方法的改进9.4.3声道滤波器参数量化的改进9.4.4LSF参数的矢量量化,9.4.1激励源的改善(1)采用混合激励代替简单的二元激励采用该技术,合成语音的质量得到改善。图9.6:LPC10e编码器原理图。,经二阶LPC分析滤波器滤除共振峰后,得白化语音;再提取基音周期,精度可改善。,分析窗的起点为语音特征短时急剧变化处。该措施提高了合成语音的清晰度。,起始点的计算:由预加重语音的平滑自相关函数值的变化确定。计算公式如下:式中N帧长;ri(0)i时刻帧长64的信号x(i)的0位移自相关函数。ri(1)i时刻帧长64的信号x(i)的1位移自相关函数。上式为一种递推计算式,可节省计算量。如果Y(i)以超过某个给定的阈值,则i点为起始点。,图9.7:LPCl0e解码器原理图。,为混合激励,改善了音质,浊音的激励源:经低通滤波的周期脉冲序列与经高通滤波的白噪声相加而成,混合比例随输入语音的浊化程度改变。清音的激励源:白噪声与位置很近且随机的正、负脉冲形成的爆破脉冲对之和。爆破音时,脉冲对的幅度增大,与语音的突变成正比,反之则脉冲对的幅度很小。混合激励改善了合成语音的金属声、重击声、音调噪声等,同时对U/V判决的敏感程度有所降低。共振峰由两个级联的综合器形成,第一个是全零点滤波器,第二个是LPC综合滤波器。美国第三代保密电话采用LPCl0e声码器。,(2)激励脉冲加抖动二元激励方案适于较准确的浊音帧清音帧的判别。浊音的激励信号具有周期和脉冲性质,适于强基音相关时。基音中等强度相关时,或残差信号中有大的峰值,应判定为抖动的浊音帧。生成抖动的浊音帧:使激励信号中的周期脉冲的相位随机地抖动。方法:对每个基音周期的长度乘0.751.25之间均匀分布的随机数。可以改善语音的自然度。,(3)单脉冲与码书相结合的激励模式低比特率下,合成高质量的语音的关键技术之一:有效、精确地表示激励信号。LPC残差信号特点:浊音时,往往存在以基音周期重复的大幅度尖脉冲,清音时,往往类似于随机噪声。不同的语音段采用不同的激励模式,可取得较好效果。即:脉冲+码书激励(见图9.8)。周期性语音段,以基音周期重复的单脉冲为激励源;非周期性语音段用从码书中选择的随机序列为激励源。,9.4.2基音提取方法的改进采用LPC的残差信号或者语音信号的自相关函数,利用动态规划的平滑算法来更准确地提取基音周期。LPC残差信号经低通后,求出所有可能的基音延时点上的归一化自相关系数,选出其中的L个最大值,再用过去和将来相邻3帧的每帧L个最大值,用动态规划的算法求得最佳基音值。宽带噪声时,LPC的残差信号中的基音周期可能被破坏,这时可用低通的语音信号代替残差信号,提取基音周期。,9.4.3声道滤波器参数量化的改进(1)LSF在数学上的量化特性LSF有良好的量化特性,在现代声码器中应用越来越多。LSF参数的有序有界性:若H(z)的极点在单位圆内,则P(z)和Q(z)的零点在单位圆上。P(z)和Q(z)的零点(即LSF)更精确地反映频率的性质。其排列顺序满足:LSF误差相对独立性:某频点LSF偏差只对该频率附近的语音频谱产生影响,对其它LSF频率上的语音频谱影响不大;利于LSF的参数量化及插值。,(2)LSF参数的标量量化求LSF参数的概率分布函数对语音信号分帧、剔除无声帧、隔直流、帧间叠接,计算各帧的LSF参数,组成一个足够大的参数集合,以得到每个LSF参数的最低、最高频率和概率分布函数。检验参数的合理性利用LSF参数取值范围及有序性的限制,检验求取的LSF参数是否准确合理;该措施保证系统稳定。失真测度及量化方法失真测度用Euclid距离;采用动态规划算法进行非均匀的全局最佳量化。,量化器的设计假定LSF参数、统一排序为:1、2、pNii的量化阶数,Pi()i的概率密度函数,imin,imaxi的最低频率和最高频率(已知)。注:为方便起见,在公式中去掉表示第i个参数的下标i。设q()是的量化,则设计q()是使量化畸变D为最小:N个判决(重建)频率的量化器,是选择重建频率和阈值频率F,以下式表示的量化畸变D最小:式中Fj阈值频率,,具体设计:先将区间imin,imax离散化成M个等间隔子区间,得到M-1个离散样点的集合=r1,r2,rM-1,量化器的设计是在集合中选择重建频率,M愈大,量化愈精细,计算量也愈大,一般取M=512。用下述的动态规划算法计算全局最佳量化频率:.对所有的,计算:.对j=2,3,N-1,对所有,计算:式中,;上式对标号k求量化畸变最小,且满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论