




已阅读5页,还剩137页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,语音信号处理与现代语音通信杨震博士教授、博导2003.8,.,2,授课内容,【1】绪论【2】声音信号的分类与数字化【3】语音的发声模型和人的听觉特性【4】语音信号的时域和频域分析方法【5】语音信号的线性预测编码(LPC)技术【6】演示实验【7】各种语音处理和通信系统的质量评价体系【8】语音信号的数字压缩标准【9】语音波形编码技术-partone(ADPCM系统)【10】语音波形编码技术-parttwo(VQ、SBC、APC系统)【11】语音参数及混合编码技术-partone,.,3,授课内容,【12】语音参数及混合编码技术-parttwo移动通信GSM系统中的语音压缩编码技术RPE/LTP移动通信CDMA系统和多媒体通信系统中的语音编码技术G.723.1MP-MLQ/ACELP和G.729CS-ACELP【13】语音信号VBR编码技术【14】人机通信partone语音识别原理【15】人机通信parttwo语音合成原理【16】实用系统中的语音增强与消噪技术【17】语音压缩编码、消噪、识别与合成演示实验【18】语音在IP和ATM网络中的通信技术partone【19】语音在IP和ATM网络中的通信技术parttwo【20】语音技术研究热点,.,4,参考文献,中文1、王柄锡“语音编码”,西安电子科技大学初步社,20022、杨行峻,迟惠生“语音信号数字处理”电子工业出版社,19953、易克初,田斌,付强“语音信号处理”,国防工业出版社,20004、胡航“语音信号处理”,哈尔滨工业大学出版社,20005、拉宾纳,谢佛“语音信号数字处理”科学出版社,19786、姚天任“数字语音处理”华中理工大学出版社,19927、谢依兰“语音信号数字处理技术”学苑出版社,19938、朱民雄“计算机语音技术”北京航空航天大学出版社,19929、胡光锐“语音处理与识别”上海科学技术出版社,199410、J.D.Markar,A.H.Gray“语音信号线性预测”中国铁道出版社,198711、陈尚勤等“语言信号数字处理”电子科技大学出版社,199112、陈永彬,王仁华“语言信号数字处理”中国科技大学出版社,1990,.,5,参考文献,外文1、R.P.Ramachandran,R.Mammane“ModernMethodsofSpeechProcessing”,KluwerAcademicPublishers,19952、GordonE.Pelton“VoiceProcessing”Mc-Graw-Hill,Inc.,19933、D.P.Morgen,C.L.Scofield“NeuralNetworksandSpeechProcessing”KluwerAcademicPublishers,19914、ClaudioBecchetti/编码方式的标记;PCM时为1WORDnChnnels;/信道数;单声道等于0,立体声等于2WORDnSamplesPerSec;/每秒采样数WORDnAvgBytesPerSec;/每秒平均字节数WORDnBlockAlign;/数据块的偏移量fmt,.,19,第二章语音信号的产生、特征与人耳的听觉特性,2.1语音信号的产生,人类发音器官示意图,.,20,第二章语音信号的产生、特征与人耳的听觉特性,发音器官:1)肺和气管2)咽喉3)声道(包括口腔、鼻腔等)4)嘴唇,.,21,男声发音“我的语音”的时域波形和语谱图,.,22,第二章语音信号的产生、特征与人耳的听觉特性,.,23,第二章语音信号的产生、特征与人耳的听觉特性,2.2语音信号的分类主要的两大类浊音(voicedspeech),又称为有声语音基音(pitch)清音(unvoicedspeech),又称为无声语音,.,24,.,25,第二章语音信号的产生、特征与人耳的听觉特性,2.3语音信号产生的模型语音生成模型常用的有:声管模型:波动方程描述LPC模型:数学模型描述共振峰模型:谐振腔描述,.,26,语音信号产生的简化数字模型LPC模型,.,27,级联型共振峰模型,并联型共振峰模型,.,28,混合型共振峰模型,.,29,第二章语音信号的产生、特征与人耳的听觉特性,2.4临界频带和Bark谱人耳的掩蔽(mask)作用指的是耳朵对一个声音的听觉感受,受到另一个声音影响的现象,Fletcher和Munson1937年发现,一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见。并且,如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为临界频带。换言之,人耳对一个临界频带里的音不易分清。,.,30,.,31,第二章语音信号的产生、特征与人耳的听觉特性,临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1Bark用来指明一个临界频带的频率宽度若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f,则有:,.,32,第二章语音信号的产生、特征与人耳的听觉特性,2.5人耳的各种听觉效应掩蔽效应,同时掩蔽(频率掩蔽):纯音的同时掩蔽现象,.,33,第二章语音信号的产生、特征与人耳的听觉特性,非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象,.,34,第二章语音信号的产生、特征与人耳的听觉特性,2.5人耳的各种听觉效应哈斯(Hass)效应双耳效应鸡尾酒会效应,.,35,第三章语音信号的分析方法,3.1语音信号的统计特性一、概率密度函数:近似Gamma分布,可用Laplace或Gauss分布近似二、零均三、非平稳时变信号;短时平稳:1030ms,.,36,第三章语音信号的分析方法,3.2语音信号的短时分析方法短时能量短时平均幅度短时平均过零率短时自相关函数短时傅立叶变换,.,37,第三章语音信号的分析方法,一、短时能量En和短时平均幅度浊音:大清音:较小静默:最小,.,38,第三章语音信号的分析方法,二、短时过零率Zn浊音:较小清音:大静默:最小(如果没有背景噪声),较大(如果存在背景噪声)一般的经验数据是,对于清音语音,在采样频率为8千赫兹条件下,其过零率为每10ms内Zn49,而对于浊音语音,其过零率为每10ms内Zn14,.,39,第三章语音信号的分析方法,三、短时自相关函数Rn浊音:呈现准周期性、逐渐衰减求基音周期清音:Rn(0)较大,衰减很快静默:Rn(0)小,衰减很快,.,40,第三章语音信号的分析方法,四、短时傅立叶变换分析1、反映了短时间内激励和声道的频谱特性,声道特性主要由频谱的包络特性来描述2、浊音:频谱能量集中在低频率区,衰减较快,呈现锯齿状清音:频谱能量分布在整个频率段内,无明显衰减静默:频谱能量很小3、基于可以求基音频率,.,41,浊音谱清音谱,.,42,第三章语音信号的分析方法,3.3语音信号的分类和词的分割方法某帧分类:浊音、清音、静默分类技术:一、基于能量或过零率硬判决二、基于自相关函数或傅氏变换硬判决三、基于模式分类技术,.,43,第三章语音信号的分析方法,用于语音信号帧属性划分的参数选择可用来判决信号帧特性的参数有不少,比如基于各帧信号的能量、过零率、低通滤波后语音能量、高/低通能量比、一阶LPC系数、一阶LPC反射系数、每帧预测误差能量、位于基音周期处的自相关函数比等。文献表明,仅根据单个参数是很难准确判断输入信号特征的,即使是在相对简单的二元语音分类如VAD中,往往也要根据多个参数进行分类,如G.729B标准采用了四种参数。,.,44,第三章语音信号的分析方法,对电话语音进行的统计表明,每个话者通话时各种语音信号帧的大致比例(统计帧数3000,帧长20毫秒)为:背景声:55.7%清音:12.5%浊音:32.8%,.,45,第三章语音信号的分析方法,词的分割技术:端点检测。多数基于短时能量和过零率,多门限判决能量和过零率检测法双门限法。这种方法也常称为显式法,即端点的确定与以后的判决无关。具体的说,首先用短时能量做第一次判断,然后在此基础上用短时平均过零率做第二次判断。,.,46,第四章语音信号的LPC分析方法,信号的预测问题可表述如下:给定P个观测点寻找某个函数:使估计误差序列之均方值最小化若是线性函数,则为众所周知的LP问题:,.,47,第四章语音信号的LPC分析方法,基音LP预测分析(长项预测:Long-term)T是基音周期,M一般取1或2,.,48,第四章语音信号的LPC分析方法,4.1LPC技术是语音信号处理中最成功、最成熟的技术。语音编码国际标准中广泛使用:G.723.1MP-MLQ/ACELPG.728LD-CELP(LowDelayCELP)G.729CS-ACELP(ConjugateStructure-AlgebraicCELP)GSMRPE/LTP(RegularPulseExcited/LongTermPrediction)IS-54VSELP(VectorSumExcitedLinearPrediction)IS-95QCELP(QualcommCELP)FS(FederalStandards)FS1015LPC10、FS1016CELPInmarsatAPC(AdaptivePredictionCoding)MPLPC(Multi-PulseLinearPredictionCoding)IMBE(ImprovedMulti-BandExcite),.,49,第四章语音信号的LPC分析方法,4.2语音信号线性预测分析的基本原理1、基于简化语音发声数学模型需要分析提取声道和激励参数,.,50,第四章语音信号的LPC分析方法,2、声道用时变数字滤波器代替语音抽样s(n)和激励信号e(n)之间的关系可以用下列的差分方程来表示:A(Z)称作逆滤波器,传输函数为:,.,51,第四章语音信号的LPC分析方法,问题:3、如何求解时变滤波器的参数和模型激励参数(1)激励参数主要是清/浊音判断、浊音中基音周期的求解等(2)求取时变滤波器的参数即P和是关键(3)主要方法自相关法和协方差法,.,52,第四章语音信号的LPC分析方法,4.3语音信号线性预测分析的自相关法和协方差法第n时刻的预测序列:第n时刻的预测误差序列:方程求解出的,即为声道(时变数字滤波器)特性中的参数,.,53,第四章语音信号的LPC分析方法,上式的解为:定义相关矩阵,.,54,第四章语音信号的LPC分析方法,4.3.1自相关法:设在区间外等于零,信号范围0,N-1,.,55,第四章语音信号的LPC分析方法,方程解法:迭代运算Levinson、Durbin、Burg、Lattice、Schur等算法,.,56,第四章语音信号的LPC分析方法,4.3.2协方差法:设在区间外等于零,信号范围P,N-1方程解法:基于矩阵的Cholesky分解(LU分解),.,57,第四章语音信号的LPC分析方法,4.3.3时变数字滤波器的增益准则:语音的能量应该和线性预测模型产生的合成语音能量相等,.,58,第四章语音信号的LPC分析方法,4.4语音信号线性预测分析各种算法特性的比较,.,59,第四章语音信号的LPC分析方法,4.5语音信号线性预测误差信号1、针对不同语音激励时的形状2、基于求解语音的基音周期3、简单逆滤波器跟踪法SIFT4.6基于ANN的非线性语音预测技术,.,60,.,61,第四章语音信号的LPC分析方法,4.7语音各种参数的特性及其相互转换1、反射系数与2、对数面积比与反射系数3、系统函数H(Z)的极点与4、线谱对LSP系数与5、LPC倒谱系数与Mel倒谱系数,.,62,第四章语音信号的LPC分析方法,倒谱和同态信号处理倒谱(对LPC模型的Z变换H(Z)求倒谱),.,63,第四章语音信号的LPC分析方法,MEL倒谱,.,64,第五章语音处理和通信系统的质量评价体系,5.1语音处理系统质量评价语音处理系统主要指语音数字压缩编解码系统、语音识别与合成系统、语音增强系统等。5.1.1语音数字压缩编解码系统质量评价对编解码器性能的要求主要包含下列方面:,.,65,第五章语音处理和通信系统的质量评价体系,恢复声音的质量即经过编码系统再经过收方解码系统恢复出的声音质量,主要有SNR和MOS两种单项感觉指标还有如可懂度、清晰度、自然度指标等比特率指的是编码器对输入的声音压缩后,每秒送出的二进制码元个数,.,66,第五章语音处理和通信系统的质量评价体系,处理的复杂度指实现编译码算法的困难程度。处理时延是完成编译码算法所需的时间。容错能力或鲁棒性(Robustness)指编译码系统抗误差,线路噪声等各种干扰的能力。,.,67,第五章语音处理和通信系统的质量评价体系,5.1.2语音识别与合成系统质量评价衡量语音识别系统的质量评价主要是正确识别率处理的复杂度处理时延衡量语音合成系统的质量评价主要是可懂度清晰度自然度,.,68,第五章语音处理和通信系统的质量评价体系,5.1.3语音增强系统质量评价衡量语音增强系统的质量评价主要是恢复声音的质量,这与语音编码相似5.2语音通信系统质量评价接收端恢复语音的质量客观质量,即信噪比SNR主观质量,常用的是MOS分数,还加上可懂度、清晰度和自然度指标。传输速率或占用信道带宽误码率或分组丢失率传输时延和变化,.,69,第六章声音信号的数字压缩标准与技术,6.1声音信号的压缩标准,.,70,位数或,位数,16,16,.,71,第六章声音信号的数字压缩标准与技术,.,72,第六章声音信号的数字压缩标准与技术,6.2.常用语音信号数字压缩标准:6.2.1国际标准。1972年制定的G.711PCM标准1984年制定的G.721ADPCM标准1990年合并归入G.726。1996年制定的G.723.1MP-MLQ/ACELP标准1992年制定的G.728LD-CELP(LowDelayCELP)标准1996年制定的G.729CS-ACELP(ConjugateStructure-AlgebraicCELP)标准,.,73,第六章声音信号的数字压缩标准与技术,1988年制定的G.722SB-ADPCM标准(SubBandADPCM)1990年制定的G.727Embeded-ADPCM(又称GEMB)标准6.2.2地区和国家标准欧洲GSM移动通信标准,RPE/LTP(RegularPulseExcited/LongTermPrediction),1987年IS(InterimStandard)北美移动通信标准IS-54标准VSELP(VectorSumExcitedLinearPrediction),1990年IS-95标准QCELP(QualcommCELP),1993年,.,74,第六章声音信号的数字压缩标准与技术,FS(FederalStandards)美国联邦标准FS1015:LPC10FS1016:CELPInmarsat国际海事卫星组织标准APC(AdaptivePredictionCoding)MPLPC(Multi-PulseLinearPredictionCoding)IMBE(ImprovedMulti-BandExcite)DECT,CT2,CT3,PHP英国,瑞典和日本无绳电话标准G.726ADPCMCVSDM(ContinouslyVariableSlopeDifferentialModulation),.,75,第六章声音信号的数字压缩标准与技术,6.3常用音频信号数字压缩标准:6.3.1国际标准。红皮书CD激光唱片编码标准,1980年,PCM黄皮书CD-ROM盘片标准,1985年MPEG标准1992年11月颁布的MPEG1,1994年11月颁布的MPEG2,1999年1月颁布的MPEG4,1997年4月颁布的MPEG27AAC(AdvancedAudioCoding),.,76,第六章声音信号的数字压缩标准与技术,6.3.2地区和国家标准NICAM(NearlyInstantaneousCompandingAudioMultiplex)标准MUSICAM标准DANCE(DPCMAudioNear-InstantaneousCompressingandExpanding)标准DolbyAC3MPC1和MPC2标准ITU下属的研究小组SG16,目前就在从事4kb/s左右(代号G/XV)语音压缩编码标准制定工作,.,77,第六章声音信号的数字压缩标准与技术,6.4语音信号的压缩技术按照编码系统码率大小,输入信号频带宽度,所采用编码技术,有失真和无失真等进行分类有失真编码:波形编码,参数编码、混合编码6.4.1波形编码其含义即为编码系统直接对语音时域或频域波形样值进行编码6.4.1.1PCM编码法6.4.1.2ADPCM编码法,.,78,第六章声音信号的数字压缩标准与技术,基于后向预测的ADPCM语音编码系统,.,79,第六章声音信号的数字压缩标准与技术,ADPCM:自适应预测自适应量化,.,80,第六章声音信号的数字压缩标准与技术,6.4.1.3子带编码SBC(SubbandCoding)和自适应变换编码ATC(AdaptiveTransformationCoding)原理:设想将输入信号用某种方法划分成不同频段上的子信号,然后区别对待,根据各子信号的特性,分别编码问题:如何将输入信号划分成不同频带的子信号,并如何能再将子信号无失真地合成出原始语音信号?各子频带如何合理分配码字?根据分配的码字,各子频带采用何种方法进行压缩编码?,.,81,.,82,第六章声音信号的数字压缩标准与技术,6.4.1.4矢量量化编码VQ(VectorQuantization)独立地对一个个样值量化编码的方式叫标量量化SQ(ScaleQuantization),而将一个个样值看作一个整体,作为一个矢量,进行整体量化编码称为VQ。,.,83,第六章声音信号的数字压缩标准与技术,VQ编码的关键一方面在于矢量码本的构造,其次在于采用何种编码量化准则1、LBG算法2、MSE准则和IS(板昌斋田)准则,.,84,第六章声音信号的数字压缩标准与技术,改进VQ算法之一:二进树VQ,.,85,第六章声音信号的数字压缩标准与技术,6.4.2参数编码基于模型,从输入语音中通过分析提取出相应的模型参数,用对模型参数的编码,代替对原语音波形进行编码和传输,并在接收端根据这些参数和语音发声模型,重新合成出原始语音的系统,称为参数编码系统。通常也称为简单声码器Vocoder(VoiceCoder)。整个语音生成模型的参数就有:1(声道模型阶数P)+P(P个模型系数)+1(调节音量的增益)+2(激励参数)=P+4个参数参数编码主要追求的是与原始语音具有相同或接近的听觉效果,而不是波形的一致。,.,86,第六章声音信号的数字压缩标准与技术,6.4.3混合编码混合编码是波形编码和参数编码两种系统优点的结合:既利用了语音生成模型,通过对模型中的参数(主要是声道参数)进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程,产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。目前得到广泛研究和应用的CELP编码法,以及基于它的各种改进算法,是混合编码法的典型代表。,.,87,第六章声音信号的数字压缩标准与技术,分析/合成编码系统原理,.,88,第六章声音信号的数字压缩标准与技术,一、多脉冲线性预测编码MPLPC(Multi-PulseLinearPredictionCoding);B.S.Atal1982年提出,.,89,第六章声音信号的数字压缩标准与技术,感觉加权滤波器原理基于人耳的听觉有一个特性:在同一频率点上一个较强的信号对其频率附近较弱的信号有屏蔽作用(屏蔽效应)。根据这一点,编码时可以允许在语音频谱分量很强的地方,产生较大的量化误差而不对听觉产生明显影响。所以在编码过程中,寻找好的激励信号源时,先对目标函数进行感觉加权修正。误差最小化一般是采用的最小平方误差MSE准则,这个准则使误差信号的谱趋于平坦化。因此,如果直接将原始语音与合成语音的误差作为目标函数,那么形成的误差将在整个语音频带内趋于平均分布。如果对误差目标函数进行预先畸变,再用MSE准则使之最小化,那么只是使误差在畸变后的信号频带中均匀分布,而合成语音中真正的误差谱,是均匀分布误差谱经反畸变的结果,这样就可以人为地改变误差函数在频域的分布了。,.,90,第六章声音信号的数字压缩标准与技术,多脉冲预测编码系统中需要编码传输的参数主要包括1、LPC参数(供接收方构造合成滤波器)2、多脉冲激励的幅度和位置通常LPC参数采用VQ,多脉冲激励的幅度和位置采用SQ。多脉冲预测编码在9.6kbit/s左右码率时有较好的合成语音质量。二、规则脉冲激励-长项预测压缩编码RPE/LTP(Regular-PulseExcitation/LongTermPrediction)这是欧州数字蜂窝移动通信GSM(GroupSpecialMobile)标准中采用的语音压缩编码算法,它的标准码率为13kbit/s,也叫移动通信的全速率编码标准。,.,91,第六章声音信号的数字压缩标准与技术,RPE/LTP语音压缩编码与前面谈到的MPLPC,都属于A/S编码方式RPE/LTP与MPLPC的不同之处:1、首先在于它的激励脉冲不象后者那样,位置任意放置。而是各个非零激励脉冲,呈现等间隔的规则排列。2、RPE/LTP编码算法与MPLPC编码第二个不同点,正如该方案的名称所示,在于增加了基音预测系统以及相应的基音合成系统。GSM标准中带基音合成滤波器的语音生成模型,.,92,第六章声音信号的数字压缩标准与技术,GSM的编码主要有下列五个步骤:1、预处理。包括采样,去直流,高频提升。2、短项线性预测分析。对20毫秒一帧的信号采用Schur递代算法计算八阶LPC系数,并转换成对数面积比参数,进行编码。3、进行短时分析滤波,即求STP系统的预测误差。4、对上一步的误差信号进行基音预测,估计出基音合成系统中的T(基音周期)和(幅度),并量化编码。5、规则脉冲激励序列编码。,.,93,第六章声音信号的数字压缩标准与技术,三、码激励线性预测CELP(CodeExcitationLinearPrediction)CELP编码系统是中低速率编码领域最成功的方案,它是1985年由M.R.Schroeder和B.S.Atal提出的。,.,94,第六章声音信号的数字压缩标准与技术,CELP与多脉冲编码相比,只是激励部分不同。其实,如果将码本中的每个码矢量,看成一个个脉冲组成的激励,那也就与前者无太大区别了。当然,CELP系统中的每个码矢量,是一个整体,并且已经是量化了的结果(通过构造码本时进行训练完成的),所以CELP系统的激励编码时,不是一个个脉冲分别求解,而是一串激励脉冲一起求,求得的每个激励脉冲,位置和幅度也不必进行量化(已完成),只需将整个选中的脉冲串在码本中的位置(即它的下标),传送告知收方即可,因为收方也有同样的一个码本。这一点与MPLPC及RPE/LTP编码原理是不同。,.,95,第六章声音信号的数字压缩标准与技术,双码本CELP编码系统,.,96,第六章声音信号的数字压缩标准与技术,G.728LD-CELP编码系统,.,97,第六章声音信号的数字压缩标准与技术,四、矢量和激励线性预测编码VSELP(VectorSumExcitationLinearPrediction)随机码本中的每个激励码矢量,都是由一组基矢量通过线性组合得到的。若设代表第k个码本的第m个基矢量(在IS-54标准中,k=1,2;m=1,2.7),那么,该码本中的任意一个激励矢量,可以表示成:J是基矢量数目;i=1,2.N;代表该激励矢量在码本中的位置(在IS-54标准中,J=7,N=128)。激励脉冲是基矢量的和构成的,故名矢量和激励。,.,98,第六章声音信号的数字压缩标准与技术,五、G.729和G.723.1编码标准G.729CS-ACELP编码系统,.,99,第六章声音信号的数字压缩标准与技术,五、G.729和G.723.1编码标准G.729CS-ACELP编码步骤:1、预处理(高通滤波,定标)。2、对10ms帧长语音段采用Levinson-Durbin法进行LPC分析(阶数10阶),并将LP系数转换成线谱对LSP参数,用VQ技术量化编码。3、将10ms帧分成两个5ms的子帧,分别求子帧语音模型对应的激励信号。4、第二子帧的信号,合成滤波器系数取自第二步运算的结果,而第一子帧合成滤波器系数,通过第二子帧系数与前一帧系数内插得到(这样,第一子帧合成滤波器系数不必传输了)。5、开环基音估计。即根据短项预测产生的预测误差,直接进行估计。,.,100,第六章声音信号的数字压缩标准与技术,6、进行自适应码书搜索,得到语音中具有准周期特性的激励。根据第五步的结果,搜索范围可以很小。G.729标准采取了一些措施,使得基音周期,还可以取分数值(三分之一样值精度),提高了合成语音质量。7、具有代数结构的固定码书搜索,得到语音模型的随机激励信号。8、两个码书的增益Gc和Gp,采用具有共轭结构的两级码书进行矢量量化。,.,101,G.729家族,1、G.729(3/96)Codingofspeechat8kbit/susingConjugate-StructureAlgebraic-Code-ExcitedLinear-Prediction(CS-ACELP)2、G.729AnnexA(11/96)Reducedcomplexity8kbit/sCS-ACELPspeechcodec3、G.729AnnexB(10/96)AsilencecompressionschemeforG.729optimizedforterminalsconformingtoRecommendationV.704、G.729An.B/Cor1(2/98)5、G.729AnnexC(9/98)Referencefloating-pointimplementationforG.729CS-ACELP8kbit/sspeechcoding6、G.729AnnexD(9/98)6.4kbit/sCS-ACELPspeechcodingalgorithm7、G.729AnnexE(9/98)11.8kbit/sCS-ACELPspeechcodingalgorithm,.,102,第六章声音信号的数字压缩标准与技术,G.723.1MP-MLQ编码系统,.,103,第六章声音信号的数字压缩标准与技术,G.723.1CS-ACELP编码步骤:(1)输入为16比特线性PCM信号。(2)编码器每次处理一帧240个语音样点,在抽样频率为8千赫兹时等于30ms时长。(3)每帧语音首先高通滤波,然后被分成四个等长子帧,每子帧含60个样值。(4)每个子帧用Levinson-Durbin法,求取10阶LPC滤波器系数。(5)4个子帧中最后一个子帧的LPC系数,经7.5赫兹带宽扩展,再转换成LSP系数。LSP系数用预测分裂矢量量化器进行量化编码。具体做法是,首先去除LSP系数中直流分量,再与前一帧解码的LSP矢量做预测,以减小动态范围。每个预测误差矢量(10维)分裂成三个维数分别为3,3,4的子矢量,分别用8比特VQ码书量化编码。,.,104,第六章声音信号的数字压缩标准与技术,(6)4个子帧的前三个子帧,其量化后LSP(从而LPC)系数的获得,是通过对前一帧的解码LSP系数,与第四帧解码LSP系数的线性内插得到。(7)各子帧得到解码LPC系数后,构成合成滤波器。(8)各子帧用未量化的LPC系数,组成感觉加权滤波器。并对输入语音滤波得加权语音信号。(9)对(8)的输出,每二个子帧做一次开环基音估计。所以一帧语音240个样点产生二个基音估计值。(10)为改进语音质量,对加权语音,进行一次谐波形成滤波。滤波器传递函数为:(11)计算(7)中合成滤波器,(8)中感觉加权滤波器和(10)中谐波噪声滤波器,三者的组合滤波器的脉冲响应。这是经过感觉加权处理的合成滤波器。,.,105,第六章声音信号的数字压缩标准与技术,(12)考虑到前后两帧间滤波器的影响,去除(11)中组合滤波器的零输入响应。(13)先进行CELP系统中自适应码书的量化,此处叫基音预测器,它是5阶的FIR系统。根据步骤(9)中求得的开环基音值,进行精细的闭环基音分析。求得的结果进行VQ编码。(14)量化编码的最后一个对象是固定码书的编码(即图中的激励编码框,它是闭环运算的)。高速率采用多脉冲/最大似然量化,与普通多脉冲方案不同的是,各脉冲幅度是一样的,符号可以不同;且所有脉冲位置,要么全在偶数号序列处,要么全在奇数序列位置处,所以它与ACELP的码本,有相似之处。低速率时的固定码书的编码,即是ACELP,比之高速率方案,脉冲个数减少了,且位置限制更严,不同码字间存在简单代数移位关系。,.,106,第六章声音信号的数字压缩标准与技术,6.4.4可变速率VBR编码九十年代以来,VBR编码逐渐引起了人们的广泛注意,(1)语音固定速率的压缩技术,已使编码系统码率降到了4kb/s以下,进一步压缩码率并保持解码语音质量,越来越困难。而未被充分利用的语音信号的突发特性和人类交谈的方式特性,将是导致语音信号压缩码率再次大大下降的主要方法。(2)通信领域的传输体系正发生重大的变革。新一代的计算机网络和通信网络中,信息是分组传输的,并且网络中资源的复用是统计方式,如果信源输出是与信源信息量变化有关的VBR码流,则更能提高网络的有效利用率。(3)不同的通信系统,因网络容量和对通信质量的要求不同,使用许多不同压缩算法和系统,这给不同系统的互相联接、互相通信,带来了很大困难。需要寻找新方法。,.,107,第六章声音信号的数字压缩标准与技术,VBR编码器分类:(1)与信源特性相关的VBR编码SCDVBR(SourceCharacteristicDependentVBR)(2)与网络容量相关的VBR编码NCDVBR(NetworkCapacityDependentVBR)(3)与信道特性相关的VBR编码CCDVBR(ChannelCharacteristicDependentVBR)(4)混合控制型VBR编码HCVBR(HybridControlVBR),.,108,第六章声音信号的数字压缩标准与技术,6.4.4可变速率VBR编码NCDVBR:G.727嵌入式编码此类系统指同一只编码器有不同的工作速率,而低速率的码字包含在(嵌入)高速率的码字中,作为高速率工作时的核心码元。,.,109,第六章声音信号的数字压缩标准与技术,.,110,第六章声音信号的数字压缩标准与技术,6.4.4可变速率VBR编码SCDVBR:G.729B带语音特性检测的VBR编码:浊音、清音、静默(基于四个参数判断:能量、低带能量、过零率、LSF)6.4.4可变速率VBR编码CCDVBR:欧洲自适应多速率编码AMR(见AnAdaptiveMulti-RateSpeechCodecBasedonMP-CELPCodingAlgorithmforETSIAMRStandard,ProceedingsofICASSP,Seattle,Washington,USA,May,1998,Vol.1:137-140.)6.4.4可变速率VBR编码HCVBR杨震新的语音信号统一VBR编码方法,2002,1,Vol.30,No.1,pp4953,.,111,第六章声音信号的数字压缩标准与技术,AnAdaptiveMulti-RateSpeechCodecBasedonMP-CELPCodingAlgorithmforETSIAMRStandard摘要ThispaperproposesaspeechcodecbasedontheMulti-PulsebasedCELP(MP-CELP)codingandaconvolutionalcodingalgorithmsfortheETSIAdaptiveMulti-Rate(AMR)standard.Thecodecoperatesatseveralspeechcodingrates,maintainingafixedgrossrateincludingspeechandchannelcodingfortheFull-Rate(FR)andHalf-Rate(HR)channelmodes.MP-CELPhasgreatfeaturesofeasilychangingthespeechcodingratebycontrollingtheparameterssuchasthenumberofpulsesandotherparameters.,.,112,第六章声音信号的数字压缩标准与技术,语音信号统一VBR编码系统,.,113,.,114,第七章人机通信语音识别原理,7.1系统分类识别:会听话的机器内容识别:听写系统,声音检索、声控命令、自然语言对话系统身份识别:说话人证实SV说话人辨识SI,.,115,第七章人机通信语音识别原理,身份识别1、讲话人身份证实SV(SpeakerVerification)识别结果为yes或no2、说话人辨识SI(SpeakerIdentification)从N个对象中确定某个对象,语音内容识别1、孤立字识别(待识别的每个字间有停顿)2、句子或词组识别(待识别的语音为一个个句子或者词组)3、连续语音识别(待识别的语音为连续的讲话声音)4、语音理解(正确识别讲话者讲话的含义),.,116,第七章人机通信语音识别原理,7.2语音识别经典技术端点检测、倒谱Cepstrum参数分析、动态编程DP、DTW算法、隐马尔柯夫模型HMM、Baum-Welch算法、Viterbi算法、模式匹配、I-S准则、神经网络、说话人自适应、KNN准则.,.,117,第七章人机通信语音识别原理,7.3语音识别的基本原理及技术机器能够识别语音是由于事先机器存储了待识别对象的特征参数,识别的过程是一个将输入信号提取的参数与存储的参数进行对比,寻求“最佳匹配”对象的过程。系统经过信号处理,存储待识别对象的特定模型的特征参数的过程称为“训练”;而将输入与存储模型参数匹配寻求与输入具有最小失真的模型的过程称为“识别”。一个语音识别系统的基本工作原理可以见下述功能框图:,.,118,第七章人机通信语音识别原理,各主要部分功能为:1、预处理包括滤波、AGC、A/D、抗噪声处理、语音分段、端点检测等L.F.Lamel,L.R.Rabineretal“AnImprovedEndpointDetectorforIsolatedWordRecognition”IEEETransactionsonASSP-29pp777785,1981,.,119,第七章人机通信语音识别原理,2、特征参数提取参数需要能够将不同语音划归不同的分类空间,目前常用的参数有语音频谱参数、LPC参数、倒谱参数、MEL倒谱参数等。其中LPC倒谱参数用得最多,而在有噪声环境下,MEL倒谱参数被证明具有更好的识别性能。基于各种参数进行语音识别的机理发不同的音,口腔形状不同,因此LPC参数矩阵可以代表不同的发音不同的语音,频谱分布不同,因此,频谱参数可以代表不同的发音语音经过长期的演化而来,有发音规则,非任意的声音,各种音节的出现及其组合(因而对应的发音模型连续参数)具有一定的概率分布,可以基于概率特征来识别,这是HMM识别技术的基础,.,120,第七章人机通信语音识别原理,3、识别技术(模式匹配技术)常用的语音识别技术包括:采用某种时间模板矫正的模式匹配法,经典的如DP,动态编程指按照某种图形得出的最小代价路径,典型的算法为:DTW(DynamicTimeWarping)基于统计特性的最大后验概率法,如HMM(HiddenMarkovModel),GMM(高斯混合模型)VQ(VectorQuantization)ANN(ArtificalNeuralNetwork),.,121,第七章人机通信语音识别原理,关于DP和DTW:本质上是一种压缩时间长短的非线性方法,它可以将两个不同长度的时间序列(或者其提取的特征参数),按照某种误差准则,进行最小误差的匹配。关于HMM:一般的Markov模型中,每个状态均对应于一个可观察的物理事件,但有些随机过程不满足这个条件,每个状态产生的观察事件本身又是个随机过程,所以模型成为一个双重随机过程,其中的一个随机过程隐蔽在另一个随机过程的背后,故称为隐过程。举例而言:时变语音信号是通过声源经声道处理而产生的,其中人的声道特性可以划分为有限个特性平稳的部分或状态(处于哪个状态是一重随机过程),而每个状态对声音信号作用并产生的短时信号取决于该处的声道物理参量或语音概率分布(第二重随机过程)。其中的状态随机过程不可观察。,.,122,第七章人机通信语音识别原理,HMM语音识别技术原理可以描述为下列数学问题:对样本进行大量统计后可以将同样含义语音的发音构成的众多观察序列,转化成对应的HMM模型的参数,:初值;A:某状态下参数的概率分布;B:各个状态间的转移概率分布;不同的发音对应这样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建龙岩市上杭县文化旅游发展有限公司(上杭古田建设发展有限公司)所属企业招聘拟聘用人选(二)考前自测高频考点模拟试题及答案详解(各地真题)
- 广西医生人文考试题库及答案
- 初任法官考试题库及答案
- 功能医学考试题库及答案大全图片
- 证券合同证券承销的规则5篇
- 防水工程考试题及答案
- 云南焊工考试题库及答案
- 企业合同范本与审核要点
- 辽宁专本连读考试题库及答案
- 日报社笔试考试题目及答案
- 中医体质分型
- 标书内技术服务和售后服务方案
- 《中国特色社会主义道路的开辟与发展》部优课件
- 前列腺癌根治术护理查房课件
- 经销商加盟合同模板
- 英语四级核心词690个附高频词汇表
- 初中国学诵读教案
- 2024年石家庄交通投资发展集团有限责任公司招聘笔试冲刺题(带答案解析)
- (高清版)TDT 1037-2013 土地整治重大项目可行性研究报告编制规程
- 拒绝内耗拥抱更美好的自己
- 政策性农业保险服务的中标、成交结果招投标书范本
评论
0/150
提交评论