已阅读5页,还剩66页未读, 继续免费阅读
(信号与信息处理专业论文)基于melp+24kbps语音编解码器的改进.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 数字语音有着模拟语音无法比拟的优势,具有保密性强,抗干扰性能好 等优点。目前中速率编解码器在1 6 k b p s ,9 6 k b p s 已经达到了很好的语音质量, 甚至中低速率4 8 k b p s 的编解码器已经到了相当成熟的地步。2 4 k b p s 编解码 器的语音有较高的可懂度,但音质处于4 8 k b p s 编解码器和1 2 k b p s 编解码器 之间,所以将来的一段时间里人们的研究重点将是2 4 k b p s 及2 4 k b p s 以下速 率编解码器。 低速语音编解码器算法和结构朝着越来越复杂的方向发展,很多原来应 用于中速编解码器的技术被应用到低速编解码器中。例如美国9 8 年公布的 2 4 k b p s 联邦声码器标准( m e l p 混合激励线性预测) 。该编解码器是低速语 音编解码器中一个非常优秀的编解码器。它基于l p c ,采用了多项新技术, 其性能达到甚至超过了一般中低速率( 4 8 k b p s ) 编解码器。这里我们将对该 编解码器进行改进,使其语音质量达到更高的水平。 课题主要创新和工作主要如下: ( 1 ) 对语音信号进行分析,寻找过渡帧的特性,根据过渡帧的特性设置 判断过渡帧的参数门限值。 ( 2 ) 将语音帧中的过渡帧进行分割,分成两个子帧,分别进行编码和解 码。从而避免了由于过渡帧被简单地划分成清浊音而带来的误差。 ( 3 ) 对编码器的码本进行改进,清浊音采用两个不同的码本,从而在不 增加计算量的情况下增加码本容量,提高信噪比。 ( 4 ) 对原编解码器的帧结构,比特分配进行调整,进而使得改进后的编 解码器在最好的状态下运行。 ( 5 ) 对实验结果进行理论分析。 关键词:m e l p :语音编解码器;码本;l p c 哈拳滨工程大学磺士学位论文 a b s t r a c t d i g i t a ls p e e c hs i g n a lh a v em u c hm o r ea d v a n t a g e st h a na n a l o gs p e e c hs i g n a l i th a sh i g hs a f e t y ,h i g ha n t i - j a m m i n gp r o p e r t y ,t h ep e r f o r m a n c eo ft h e1 6 k b p s a n d9 6 k b p ss p e e c hc o d e ci sv e r ye x c e l l e n t , t h et e c h n o l o g yo f4 。8 k b p ss p e e c h c o d e ci sa l s os u c c e s s f u l t h ep e r f o f i n a n c eo f2 。4 k b p ss p e e c hc o d e ci sp o o r e rt h a n 4 8 k b p sa n db e t t e rt h a n1 2 k b p s s oi nt h ef u t u r e ,t h ee m p h a s i so fl o wr a t es p e e c h c o d e cr e s e a r c hi st h e2 4 k b p ss p e e c hc o d e c t h ea r i t h m e t i ca n dc o n s t r u c to fl o wr a t es p e e c hc o d e ci sb e c o m i n gm o r ea n d m o r ec o m p l i c a t e d al o to fm i d - r a t es p e e c hc o d e ct e c h n o l o g i e su s e di nl o wr a t e s p e e c hc o d e c f o re x a m p l e ,m e l p ( m i xe x c i t e dl i n e a rp r e d i c t o r ) 2 ,4 k b p ss p e e c h c o d e c ,t h es p e e c hc o d e cs t a n d a r do f9 8f e d e r a la m e r i c a n 。i ti sav e r ye x c e l l e n t l o wr a t es p e e c hc o d e c 。i tb a s e d0 1 1l p c ,a d o p t e dm a n yn e wt e c h n o l o g i e s ,i t s p e r f o r m a n c e e v e ne x c e e d e dm i d l o wr a t es p e e c hc o d e c “8 k b p s ) 。t oi m p r o v ei t s p e r f o r m a n c ew e w i l la d a p ti t t h ei m p r o v e m e n to f t h ec o d e ca n dm yw o r ka r el i s t e da sb e l o w : ( 1 ) a n a l y s et h es p e e c hs i g n a la n df i n dt h ep r o p e r t i e so f t h et r a n s i t i o ns p e e c h f r a m e s e tt h ev a l u eo f p a r a m e t e r st o j u d g et h et r a n s i t i o ns p e e c hf r a m e ( 2 ) c u tt h et r a n s i t i o ns p e e c hf r a m ei n t ot w os m a l l e rf r a m e s ,e n c o d ea n d d e c o d et h e mi n d e p e n d e n t l y 。s oi tw i l la v o i dt h ee r r o rp r o d u c e db yc l a s s i n gt h e t r a n s i t i o nf r a m ei n t ov 删f r a m e ( 3 ) a d a p tt h ec o d e c sc o d eb o o k ,u s i n gt w oc o d eb o o k s ,t h ev o i c e dc o d e b o o ka n dt h eu n v o i c e dc o d eb o o k s oi tc a l le n h a n c et h es n rb yi n c r e a s i n gt h e v o l u m eo f t h ec o d eb o o kw h e nt h ec a l c u l a t i o ni s n ti n c r e a s e d ( 4 ) a d a p tt h eb i ta l l o t i o nt of i tt h ei m p r o v e m e n t ( 5 ) a n a l y s et h er e s u l to f t h ee x p e r i m e n t k e yw o r d s :m e l p ;s p e e c hc o d e c ;c o d eb o o k ;l p c 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献等的引用已在文中指出,并与参考文献相对应。除文中 已经注明引用的内容外,本论文不包含任何其他个人或集 体已经公开发表的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 作者( 签字) :本盎= 日期:2 砾5 月6e t 哈尔滨工程大学硕士学位论文 1 1 课题来源及意义 第1 章绪论 数字语音有着模拟语音无法比拟的优势,它可以根据人们对于语音音质 的不同要求而进行不同速率的编码,如早先出现在电话通信中的6 4 k b p sp c m 编解码,后来出现的1 6 k b p s ,9 6 k b p s 中速率编解码,2 4 k b p s 的低速语音编 解码,1 2 k b p s 及1 2 k b p s 以下的更低速编解码。数字语音还具有保密性强, 抗干扰性能好等优点。 目前中速率编解码器在1 6 k b p s ,9 6 k b p s 已经达到了很好的语音质量, 甚至中低速率4 8 k b p s 的编解码器已经到了相当成熟的地步。随着d s p ( 数 字信号处理器) 频率的不断上升,信道频率资源越来越珍贵,人们对低速率 语音编解码器的兴趣有增无减,因为高速的d s p 已经有能力处理越来越复杂 的算法。在目前,2 4 k b p s 速率以上如4 8 k b p s 编解码器的语音质量已经基本 满足人们对语音音质的要求,而2 4 k b p s 以下如1 2 k b p s 编解码器的语音的可 懂度还有待提高,2 4 k b p s 编解码器的语音有较高的可懂度,但音质处于 4 8 k b p s 编解码器和1 2 k b p s 编解码器之间,所以将来的一段时间里人们的研 究重点将是2 4 k b p s 及2 4 k b p s 以下速率编解码器。 课题选取美国9 8 年公布的2 4 k b p s 联邦声码器标准( m e l p 混合激励线 性预测) 进行改进。正如前面所说,低速语音编解码器算法和结构朝着越来 越复杂的方向发展,很多原来应用于中速编解码器的技术被应用到低速编解 码器中。与m e l p 的原型比它早十几年的l p c 及l p c 1 0 相比,它们的 复杂度和计算量早已不是同一数量级。以它们的程序量为例,m e l p 的程序 加上各种参数有近两百页,而l p c 只有十几页。课题所提出的改进算法是以 不增加速率的前提下提高其音质为目的的,所以算法复杂度的增加在一定程 度上来说是必然的。随着d s p 技术的发展,这也是一个趋势。在第六章我们 将会看到,改进后的算法其实对总体计算量的增加是很微小的,而效果是明 显的。 哈尔滨工程大学硕士学位论文 m e l p 虽然是在9 8 被美国联邦定为标准,但是新一代的低速语音编解码 器还没出来。从8 0 年代出现l p c 一直到现在,虽然低速语音编解码器不断 地更新换代,但我们会发现这些编解码器都是基于l p c 的,所以对以l p c 为基础的m e l p 进行改进是很有实际意义的。 1 2 论文期间所做工作 在课题准备期间,本人曾对各种低速率语音编解码器进行过仔细的比 较,比较中发现m e l p 编解码器是本人所能找到的2 4 k b p s 编解码器中音质最 好的。但是同其他编解码器一样,m e l p 编解码器也有它的不足。如本课题所 进行的对其过渡帧的特殊处理和矢量量化码本的改进。对其过渡帧的特殊处 理是本课题的任务所在,对矢量量化码本的改进是课题后期所发现的可以改 进的改进点。 所以课题已经完成的是对编解码器过渡帧特殊处理,这其中包括对整个 编解码器结构进行调整以使其能够符合对过渡帧的处理,对比特信息进行调 整以使其能够传输过渡帧的比特信息,还有对程序进行优化,最后进行系统 仿真得出实验结果。至于矢量量化码本的改进由于时间的限制,还处于实验 阶段。 1 3 论文各部分内容简介 论文第二章介绍低速语音编解码器的模型。第三章介绍低速语音编解码 器的几个重要参数的概念及计算。第四章介绍了几种常见的低速语音编解码 器原理及其结构,事实上m e l p 是从这些原型( 如多带激励) 上发展而来的。 第五章介绍了m e l p 编解码器原理模型、参数的提取量化编码问题以及比特 分配。第六章介绍了对m e l p 编解码器的改进的原因、步骤、仿真结果及改 进后的码率、算法复杂度、计算量等,最后还给出了相应的理论解释,使其 具有理论依据。第七章主要给出了软件流程图和部分重要子程序。 哈尔滨工程大学硕十学位论文 第2 章语音模型 在讲语音编解码之前,我们很有必要先了解一下语音的基本模型。包括 人类产生语音的发音系统的特性和人耳的听觉特性,语音编解码器其实就是 在模拟人类的发音和听觉系统,深入了解人的这两个系统有助于我们准确地 构建语音编解器,简化编解码器的模型,从而达到语音信号低速传输的目的。 2 1 语音信号的时域特性 语音信号在较短的时间内( 如5 - 3 0 m s ) 具有一定的稳定性,我们称之 为语音信号的“短时平稳性”。语音信号的短时平稳性是我们对语音进行压 缩编码的基础。在低速语音编码中,我们通常将语音划分成一段1 0 一3 0 m s 的 语音段,称之为语音帧。对每一帧信号进行参数提取,然后对参数进行量化 编码,编码后的参数经信道传输( 或存储在介质中) 到解码端,解码端再对 接收到的参数进行解码并利用这些参数合成出原来的语音波形。我们将图 ( 2 1 ) 所示这类具有周期性的语音称之为浊音,将图( 2 2 ) 所示的非周期语 音称之为清音。低速语音编码就是根据语音的这种特性将语音划分为清音帧 和浊音帧的。 h “。 _ 。 j i 。u h“l d i 。“ j 1 1t p “t r 。 f ”r i 1 y f 。lv f m 图2 1 浊音段波形图 图2 2 清音段波形图 2 2 语音信号的频域特性 图( 2 3 ) 图( 2 4 ) 分别是一段浊音和一段清音的频谱图。从图可以看出 浊音的能量明显集中在少数几个频带内,清音的能量则比较均匀地分布在整 哈尔滨工程大学硕士学位论文 个频段内。根据语音的这个特性我们不但可以将语音划分为清浊两种帧,而 且结和下面讲的发音系统,听觉系统,我们可以了解低速编解码器中采用l p c 模型,分带激励模型,残差谱等模型和参数的意义。 41nl i 、n u 。l i 、,n n 、一k 阶胛栅忡 甜帆“ 图2 3 一段浊音的频谱图图2 4 一段清音的频谱图 2 3 发音系统 语音是由人类的发声器官产生,发声器官主要由喉,声道和嘴等组成。 完整的发声系统还包括由肺、支气管、气管组成的次声门系统,次声门系统 是产生语音能量的源泉。当空气从肺中呼出来时,气流由于声道某一地方的 收缩而受到扰动发出声波。 语音按其激励分有三种形式:浊音,清音和爆破音。当气流通过声门, 声带的张力使得声带发生张弛式的振荡,这时就会产生一股准周期气流,这 股气流激励声道时就产生浊音。当气流通过声门声带不振动而在某处收缩使 气流高速通过时产生湍流,这就产生了清音。如果声道完全闭合,在闭合后 产生气压然后突然释放,这就得到了爆破音。 基音频率,浊音时气流通过声门使声带发生振动,产生准周期激励脉冲 串,这个脉冲串称为“基音周期”,其倒数称为“基音频率”。基音频率与 个人声带有关,在很大程度上反映了个人的特征。一般而言,男性基音频率 大致分布在5 0 - 2 0 0 h z 左右,女性和小孩的基音频率在2 0 0 - 4 5 0 h z 左右。 共振峰,人的声道和鼻道都可以看作是非均匀截面的声道管,声道管的 谐振频率称为共振峰频率。共振峰频率和声道的形状和大小密切相关,每种 形状都有一套共振峰频率作为其特征,改变声道的形状就产生不同的声音。 共振峰频率由高到低依次为第一共振峰,第二共振峰,第三共振峰,用f 1 , f 2 ,f 3 表示。一般浊音有五个共振峰,前三个最重要。 4 哈尔滨工麟大学颐士学位论文 2 。4 瞬觉系统 一般人耳可听见的声音频率范围为2 0 h z 1 6 k h z ,人耳听觉的主观感知主 要有响发,音调和掩蔽效应。 喻麓,表示声誊强弱戆懿毽羹麓声强,擎馒两瓦殍方港。衰示声音强弱 的主观激是p h o n ( 方) 或s o n e ( 聚) ,方是响度级单位,束燕晌度单位。当 人刚能听到声音时的强度是o p h o n ,即人的听闽。听阈随频犁的不同而不脚。 当声音强度强到使人霹感到疼痛黪粒强度藜为痰阙。疼阕瞧照频率兹不翳褥 不同。 音调,音调是描述声音高低的爨,频率高的声音听起来胬调高,频率低 的声音嘴起来音调低。音调与音频势不成正比,它还与声音的强度及波形谢 关,单夔蹩r e e l ( 美) 。个裹予褥溺4 0 d b ,频率淹1 0 0 0 h z 懿音灞定燕1 0 0 0 r e e l , 若一个纯青昕起来比它高一倍,则为2 0 0 0 r e e l 。皆调与频率的关系可近似她 用式( 2 - 1 ) 来表示: k 一3 3 2 3 2 3 l g ( 1 + o 0 0 1 f z , ,) d 。1 、 、一4 , 掩蔽效应,当人鲜同时听到两个响度不同的声音时,响魔较高的声音套 对响度低的声音构成影响,使其变褥不易察觉,这种现象称为掩蔽效应。一 簸来说骶管更容易穗簸离音,焉嵩频辩低频静撬蔽俸雳簧| j 奎一些。壶于礤黟 可以由许多纯音组成的宽带音,故嗓声的存在会影响到纯音的接收。掩蔽作 用最明显的是被掩蔽纯膏的频率附瓣的一个窄带的掩蔽分量,因此我们用“频 率群”撩毅夔穰念寒瓣释,我稍弓l 入旗赛豢蹇壤忿。鼙一令鳃澄露鞋菝戳它 为中心,舆有一定频率带宽的噪声所掩蔽,著在遮一频带内繇声功率等于该 纯音的功率,这时该纯音处于刚能被听见的临界状态,这一带宽称为临界带 宽。一个临界带宽用暇爽表示( b a r k ) 。2 0 1 - l z 1 6 k h z 可分为2 4 墨克,2 4 个 拣赛繁宽静详麴信惑群饔阕有关资精。 2 5 语音模型 骞了瑷主对语音系绞豹基本了躲,我髓藏搿戮建立楚纯的诿音攘壅了。 一个简单的语音时域模烈包括三个蕊本组成部分:激励源、声邋模型和辐射 哈尔滨:l 程人学硕士学位论文 模溅。如图( 2 。5 ) 掰示: 图2 5 语皆信号产生模型 激励源分为浊音和清音掰种,清浊音开关控制要产嫩的信号是清诲还是 漆鬻,当嚣要浚蓊薅,震麓敲冷发生器产擞个菝搴等予基音频率豹餍期赫 冲序列,该冲击序列还需通过一个声门脉冲模型模拟滤波器g ( z ) 。声门波 形的幅度频谱按姆倍频程1 2 曲的速度递减,若g 。) 4 西乏i 弓;丽 ,其中反和岛都徽接近1 ,那么浊音激励傣蟹频谱就很接逝于声门脉冲频谱, 乘浆数a u 的作用是调节浊音信号的幅度。清音激励由个随机噪声发生器 产嫩。平均值为零,自相关溺数是一个单缎冲击函数。嗣样乘系数的作用是 谖繁清音傣号瓣秣凌。 式( 2 2 ) 给出了离散时域的声道传输函数,我们把声道近似为 v ( z ) - i 二一 ( 2 2 ) 了8 ,:。 箭1 截面积连续变化的p 段声管的串联,每段声管的截面积怒不变的,p 称为这 个惫极点滤波器豹阶数,p 越火模型近越接谶实际声道,般p 为8 剿1 2 。 投悫频率分臻与语音静各个共擞蜂穗对应。辐射模墼露缸) 每骧形有关,表示 如式( 2 3 ) : r 扛) ;( 1 一理。) r 一1 f 2 3 ) 猩图( 2 ,5 ) 中,g ( z ) 和r ( z ) 保持不变,基因频率、v 、疵、清, 芏到 杏、唰 丽i | | | | 一 而里 一 瓣吨 竺 岍尔滨工程大学硕士学位论文 黼蕾皇由墨- _ _ 黼葺宣_ _ 黼鞫皇誓誓置王宣礴黼黼鲁肯罱帚暑i i 篇_ _ _ 一高;互警 黼麓薯宣墨i 察音开关位鬻及声道模型巾的参数都髓辩闻变化两变纯,毽是它翻变证的速 度受至# 耱瑗霞索限翩静。在1 0 - 3 0 m s 内酊戳认为它们是不变静,所以低速语 街编解码器巾将语音分为1 0 3 0 m s 为帧是合理的。根据这个横趔,离散时 域语音信号s ( n ) ,的z - 变换s ( z ) w 以用一个统一豹公式( 2 4 ) 来计算: s ( z ) sa e ( z ) n ( z ) ( 2 - 4 ) 漕为浊音时,e ( z ) 怒一周期冲击序列的z 变换,且a :a , 盯( :) 一g ( z 矿d 冰0 ) ,在满音情况下,e ( z ) 是一随机噪声的z 变换,且 a = a u ,h - v ( z ) r ( z ) 。 2 6 本章小结 本章主要介绍了人类谬管系统、语齑方嚣静一些蒸本知识、低遴谗音缡 解鹤器静模型、公式。在麓强章孛我们将对尼释常掰的低速语音编解码器作 比较深入地分析,所以这帝所给出的仅倪是从人类发管器官中提取出来的简 化的基本模型。 哈尔滨工程大学硕士学位论文 第3 章低速语音编解码器中几个重要参数 l p c ( l i n e a rp r e d i c t i o nc o e f f i c i e n t ) 线性预测数是低速语音编码中一个非 常重要的参数。虽然有些低速编码器没有直接运用l p c 参数而采用其他参 数,如部分相关系数,对数面积比系数,线谱对l s p ( l i n e s p e c t r u mp a i r ) 等, 但这些参数之间可相互转换,知道其中一个就可计算出其他参数。由于l p c 出现比较早,比较直观,容易理解,和本文讨论的编码器关系比较紧密,所 以我们着重讨论一下l p c 。 3 1l p o 基本概念及原理 简单来讲线性预测就是用过去的几个抽样值进行线性组合来得 到当前所需的抽样值。当然,这种计算只是一种逼近,实际抽样值和预测值 会有一定误差,但是我们可以合适选取一组线性预测系数使得其均方误差最 小。 语音信号s ( z ) 可以看做是一个激励信号e ( z ) 通过一个线性时不变系统 v ( z ) 产生的输出。从时域上说信号“n ) 就是激励e ( n ) 和冲击响应v ( ) 的卷积。 由于人的发音系统可以看作一个全极点模型,其传输函数为: 咐器2 万g 。雨g ( 3 - 1 ) p 是预测器阶数,一般为1 0 ;g 为增益。表现在时域上的差分方程就是: s o ) ;g e o ) + 口卢。一f ) ( 3 - 2 ) 对于浊音,激励e ( n ) 是以基音为周期的单位脉冲序列,表示如下: 8 ( 月) = 6 ( n r n e ) ( 3 3 ) 对于清音,激励e ( n ) 是一个高期自噪声序列,其自相关函数如下: r u ) = e e ( n ) e ( n + d 】= 6 ( ,)( 3 - 4 ) 8 哈尔滨工稷大学硕士学位i 仑文 用j 0 ) 袭示预测值; j o ) 一塞口;s ( ”一f ) ( 3 5 ) 两 预测误麓# m ) 就可以袭示为: # ( 蠢) - s ( , o 一;( 栉) 。s 秘) 一董嚷s 辑一f ) 秘) := i 对于给定的语音序列s ( n ) ,我们骚求最佳线性预测系数a ;,使得均方谈灌 p 2 协) 最小: 茁p 2 伽) 一露 p o ) 一艺啦s o f ) 】2 ( 3 7 ) 由于语脊并非理想的众极点模型,故均方误差别譬2 q ) 会随麓阶数p 的增大 瑟减,l 、,餐是兰除数犬予1 0 靖嚣2 国) 懿减小将苓弄甓显。一般瑟言,我释 选取的阶数为1 0 。 确怒阶数后我们就可以推导最饿预测系数q 使得e p 2 0 ) 最小,设乱枷) 为在抽榉点n 附近选择躲一个语誊羧: 毛砸) m s 翻+ 掰)( 3 w 8 ) 可得短时均方预测误麓为: p 织- e p 乙洳) 一双魏国) 一芝嚷白一1 ) 1 2 0 - 9 ) 对上式中的p 个变t a 。( i = 1 - p ) 求偏辱并令其为零,可得p 个方程: 以k ( m ) 一芝口 白一,) k ( m f ) * 0 i = 1 ,2 ,p ( 3 一l o ) 嚣预测谖差与过去热榉值正交时颈溯系数达到最佳,设: 母“,) 一e 概一f h 咖一,) )i , j = l ,2 ,p( 3 1 1 ) 式( 5 l o ) 可以表示为: 8 ,垂。a ,) - 昏。( f t o ) i = l ,2 ,p 0 - 1 2 ) 式( 3 - 1 2 ) 称为l p c 征则方程,m ( f ,j ) 由输入谤音序列决定。对于这个方 程组魏袋瓣毒在鸯效豹方法。下一蕊讨论摇嚣求孵预溅系数。 啥尔滨工程大学硕士学位论文 3 。2l p c 正烫方獠的自襁关解法 对于祗则方程的求解有好几种方法。由于谱膏是一种短时平稳信号,阂 韭更毙用一段诿音来镶诗模型参数。对应有两秘方法,一是将长静语啻序戮 加密,然詹对加窑语酱避行l p c 分析,这种方法嘲自相关法;弱一种方法照 不对语音加窗,在计算均方预测误黢时限制取和蹶间,这种方法叫自协方麓 法。我 f 】鼹时闻平均代磐几何平均戳】来具体讨论这自相关法。 3 2 1l p c 的自相关解法 对语膏加密, w ) 仅猩区间【0 , 测误差: 使褥矗( m ) 在区间【o ,u - 1 以) b 为零: 和) t 矗+ 辨) 荆睁)( 3 1 3 ) n - i p q 取值所以斌( 5 1 3 ) 中的均方误差燮为短时均方预 东t & 2 妇) 。l 翩 由于强语音段的起点处总是用零来预测当前信号样值,而在终点总是用 非零值预测零值,为了减小这种误慧,窗函数一般采用两端逐濒衰减的窗, 魏汉璃窑。愆汉鞠密运蜀敦躐少吉蠢辫臻象。 故式( 3 - 1 2 ) 中的m 。a ,) 变为: + p l 母。g ,) 一& ( m 一i k 枷一j ) l i p ,o j p ( 3 - 1 5 ) 令册。州一f ,由于o ,撑n 1 以及o 掰+ 一j 。瓦套一,) t 茂g 一螃一冀睡f j l 只o l p ( 3 1 8 ) l p c 方程缀可表示为: l o 哈尔滨工科大学硕士学位论文 , n ,r ( f i j i ) = 咒a ) 1 i p ( 3 1 9 ) j 。l 表示成矩阵形式: r ( 0 ) r ( 1 ) r ( 2 ) r p 一1 ) r r ( p - 1 ) r ( 0 )r ( p 一2 ) r ( 1 )r ( p 一3 ) r ( p 一2 ) r ( 0 ) a l 口2 口3 : a , r ( 1 ) 民( 2 ) r ( 3 ) r ( p ) ( 3 2 0 ) 由于这个矩阵的主对角线以及所有与主对角线平行的副对角线上各自都具有 相同的元素,即托伯利兹矩阵,利用此种矩阵的性质可以得到正则方程的高 效率解法。 3 2 2 自相关方程的德宾递推算法 用矩阵方程表示( 3 2 0 ) : r p a p f p ( 3 2 1 ) 为求a ,先对尺,求逆,一般来讲月,的逆矩阵都存在,故: a 9 一i r 9 i - i ,9( 3 2 2 ) 由于r 是托伯利兹矩阵,这种方程组的有效方法是德宾迭代( d u r b i n ) 算法。 设对于p + l 阶全极点模型参数估值,其矩阵方程为: 尺p + l 口川;,州 ( 3 2 3 ) r + 1l r 9i ,9 f 】;r ( o ) ( 3 2 4 ) 尸1 憾) j 凹, 式中为,的列矢量倒置, 】为的列矢量转置。n ? 为p 阶全极 晗尔滨工程大学颁士学位论文 点模型的第i 个系数,上橼p 代表阶数,下标i 代表p 阶全极点横趔对应系数 戆标号。 绣国 4 f “ 穗;+ 1 1 球囊 ,p 1 = i i ( 3 。2 6 ) i r a p + 1 ) l 将( 3 2 6 ) 分为上下两部分计算,相应计算式为 设 “ 口 ! 瑶譬 溶9 】 【,”】f 萋 匪 + n 簧一, ( 3 - 2 7 ) + 口p + l r ( o ) s r ( p + 1 )( 3 2 8 ) m 茁,则式( 3 2 7 ) 和式( 3 - 2 8 ) 变为: 限弦”1 + 口嚣9 * 厂 ( 3 t 2 9 ) 【r ,蠢”1 + 口茹民( o ) 一r o + 1 )( 3 3 0 ) 由于舻怒羟糖列兹短薛,所以从r a 。,可以撼爨r p a _ 一,9 。教可褥: a 9 一僻】_ l ,( 3 - 3 i ) a 9 一【r p 】- 1 ,( 3 3 2 ) 将式( 3 2 9 ) 两边乘以涨,】一,得到: 溶9 r 溶9 舛+ n 鬟馨9 】。,;溶9 r f 0 3 3 ) 化简得: 5 ”+ 尊嚣徊】- l 9 - j r 】“,9 ( 3 3 4 ) 薅式( 3 ,3 1 ) 和( 3 - 3 2 ) 健凡式 3 3 4 ) 零: 矗9 + 1 + 口p 4 + 。z a - 9 。群9 ( 3 3 5 ) 1 , 啥尔溟工程大学硕士学位论文 再将( 3 - 3 5 ) 代入( 3 3 0 ) 褥; r ( p + 1 ) = 【9 五”1 + 口,p + + 。l r ( o ) = 9 r ( 口9 一a ,p * l a 9 ) 千口:r ( o ) ( 3 3 6 ) 解出口p + l : a 搿一等等等 b 。7 , 式( 3 - 3 7 ) 的分母就是r ( o ) 一? r ( f ) ,即p 阶最佳线性预测逆滤波 余数能量e 。 e 9 。兄( o ) 一艺舻r p ) ( 3 3 8 ) e ”1 一r ( o ) 一口? “r o ) ( 3 3 9 ) 将式( 3 3 5 ) 代入式( 3 3 9 ) 得到: e 州= r ( o ) 一艺o ,一p + + 。l n 鼻。) r ( f ) 一口川p + l 吒o + 1 ) ( 3 4 0 ) 又由式( 3 3 7 ) 得: 民( p + 1 ) 2 p n + l e 7 + 州口92 口,+ l p + l e + 艺口r ( f ) ( 3 - 4 1 ) 将式( 3 - 4 1 ) 代入式( 3 4 0 ) 得: e ”1 _ r ( o ) 一艺o ? 一n 州p + l 口;m - ) 民a ) 一口搿r ( p + 1 ) 一一。川p + 1 ) 2 e 9 ( 3 4 2 ) 将以上的公式整理就可得到德宾算法的基本过程,德宾算法从零阶预测 开始,p = 0 ,e o r ( 0 ) ,a o 一0 ,逐步递推: 4 j ,i 一1 , e 1 ; 群 ,it 1 , 2 ,e 2 ; 扣? ) ,ia1 ,2 ,3 ,e 3 ; 扣? ) ,ia1 ,p ,e 9 德宾算法递推过程总结如下: 1 e “= r ( o ) 哈尔滨工群大学硕士学位论文 从i = 1 开始: i i 2 ;阮a ) 卜n p r “一j ) e 1 1 3 a 0 ;缸 4 a ;i f f i 一( 卜”一t 料 1 sj s i - 1 5 e = ( 1 一砰) f “ 如果i :a i 8 ,( f ) = e 9 ( 3 - 5 9 ) 篇 可见,清音信号与浊音信号计算模型的增益公式相同”】。 以上几节讨论完了l p c 参数,上面也提到在低速语音编解码中大多采 用l p c 系数。但是l p c 系数不利于传输量化,所以我们引入线谱频率( l s f l i n e s p e c t r u mf r e q u e n c y ) 。事实上,l s f 是和线性预测系数、部分相关系数 完全等价的另一种表示方式。l s f 比线性预测系数具有更好的内插特性和量 化特性,很多低速语音编解码系统中都采用它,我们以后要介绍的m e l p 编 解码器就是对l s f 参数进行量化编码,l s f 系数是通过l p c 系数转化而来的。 哈尔滨工程大学硕十学位论文 下面我们先介绍一下l s f 的特点,再简要讨论一下如何从l p c 转换到l s f 。 l s f 主要有以下优点: 1 ) 如果能保证计算出来的l s f 参数拥有有序有界的性质,即 0 = q , ,n = 石,就可保证全极点滤波器v ( z ) 是稳定的a 因 此用l s f 参数反向求线性预测系数时所得到的声道传输函数肯定是稳定的。 2 ) l s f 与线性预测系数不同,它有相对独立的特性,即当其中一个m 发 生变化时对其它的讲的影响不会很大,这一特性有利于它的量化和内插。所 以,我们在后面就可以看到,在l p c 和l p c 1 02 4 k b p s 编解码器中l p c 参 数是直接量化的,而在m e l p 编解码器中l s f 采用的是矢量量化。 3 ) l s f 参数能够反映声道幅度谱的特点,在幅度大的地方分布密,反之 则疏,相当于反映出了幅度谱中的共振峰特性。 4 ) 相邻帧l s f 之间具有较强的相关性,便于语音编解码帧间参数的内插。 5 ) 量化效率更高,前面提到,量化l s f 参数时只要进行矢量量化就可以 了,而不用像l p c 或l p c 一1 02 4 k b p s 中对l p c 直接进行量化。所以采用l s f 后只要用较少的比特就可以达到同等的效果,有试验表明,若使谱失真小于 l d b ,采用标量量化l s f 每个只需3 b i t 。 下面简要说明如何将l p c 转化成l s f ,推导的根据是部分相关系数满足 隐定性条件。 假定预测阶数p 为偶数,有式( 3 - 6 0 ) : 口:9 = 45 1 1 一k p a p 9 - 一j 1 1sj c ( o ,t + 1 ) , 则最大值比较可能落在t 1 和t 之间,此时将基音t 减1 再进行内插,分数 偏置有内插公式计算: 。g 堡三! 监坚! 旦= g q 三垦亟三竺( 5 - 3 ) 一q ( 0 ,r + 1 ) 【q 仃,砷一g 仃,r + 1 ) 】+ c r ( o ,纠c 仃+ 1 ,r + 1 ) 一g 叮,r + 1 ) 】 、 相应的归一化互相关值由下式给出: ,仃+ ; 垒:垒垦垒丝三丝坠三耋墅 ( 5 4 ) 、 。g ( 0 ,0 ) f ( 1 一) 2 c 。( t , t ) + 2 a ( 1 - a ) c t ( t , t + i ) + a 2 c r ( t + i , t + i ) 哈尔滨工程大学硕士学位论文 图5 1m e l p 编码器结构图 最终基音估算,最终基音估算是对最低频带o - 5 0 0 输出的估算。须处 理的值有前一帧的整数基音初始值圪。和当前帧整数基音初值日。对于这两 个值还需用式( 5 1 ) 进行进一步的整数基音搜索( 超前或滞后5 个样点) ,搜 索到最佳整数基音后进行分数基音提取。互相关值较大记为只,相应的互相 关值r ( 最) 被作为最低频带的话音强度( ,) 保存,它将决定总的清浊音判决。 只还将用于决定其余频带的分带判决和下一步的基音计算及增益计算。下一 步的基音计算中使用了低通滤波后的残差信号,残差信号经低通滤波后用式 ( 5 1 ) 进行基音搜索,搜索范围为只超前或滞后5 个样点。然后对这个基音值 进行分数基音提取,得到初步的最终基音值只和互相关值r ( 只) ,若,( 只) 啥尔滨工程大学硕士学位论文 0 6 则对滤波后的残差信号进行基音倍频检测,将只作为开始的基音值。若只 1 0 0 ,则二次门限值跣= o 7 5 否则巩= 0 5 。倍频检测可能产生新的只和 r ( e ) 值。若r ( 只) o 6 ,则使输入语音信号进行一次围绕只的分数基音改善, 此次计算的中心位于当前帧的最后一个取样,并且产生新的只和,( 只) 。若 r ( e ) 2 0 ,k = 8 ,7 ,2 。对于r ( 足七) 值 的计算,围绕品七进行一次分数基音提取,产生丘,若丑t 3 0 ,则进行半 频检测,围绕丑进行分数基音提取,产生新的足和r ( 足) 值。若最小于3 0 个取样,则需再进行一次半频检测。对于输入p 和r ( p ) ,半频检测返回,( p ) 和r ( 2 p ) 中的较小者,这里的,( 2 p ) 是由围绕2 p 进行分数基音提取的到的, 半频检测用于纠正可能发生的半频错误。 2 子带分析 子带分析就是计算五个子带的强度吃;,i - 1 ,2 ,5 ,并以此进行分带清 浊音判决。具体做法是先用低通滤波器将输入语音划分成五个子带,其中最 低子带用来进行分数基音估算,得到分数基音只和对应的,僻) ,r ) 决定 了最低子带和总的清浊音判决。对于其余的四个子带,在每个子带上分别使 用子带信号和子带信号的时域包络信号围绕只进行分数基音提取,相应地得 到两个r ( 只) ,将其中一个较大的作为本子带的子带话音强度。这里的时域包 络信号由子带信号全波整流后再进行平滑滤波得到,各个子带的子带话音强 度决定本子带的清浊音判决。 3 线性预测 晴尔滨工程大学硕七学位论文 ”1 1 i i _ j g i i ;j ;i _ ;j j _ 目_ | _ _ _ _ _ 目目目目;i i i m e l p 中的线性预测怒雳2 0 0 个榉本点( 2 5 m s ) 的汉明窗对输入信号进 纷1 0 殓线後强灏,塞载巾,0 嬗予姿蘸犊豹最螽一个彀撵,弱德宾箨法送嚣蠡 榴关分析,预测因子a i 用副1 5 h z 带宽扩震因子o 9 9 4 第 个预测系数乘以 o 9 9 4 ,进行带宽扩展有助于改善共振峰结构和便于l s f 参数量化。得到l p c 鼷薅契比雪夹多项式递撼转换为l s f 参数,l s f 氍爆多级矢爨爨纯技术 m s v q 进行爨亿。 4 计算增益 为了提搿精度和抑制噪声,每帧对输入语音信母的增益计算两次。计算 簿菠矮基啻麴逶应塞长,巍长由戳下穷浚决定:当,罐6 2浊音 l 若码重为0 ,则说明是满酱,使用清裔模式;若码黧为1 ,说明发生了1b i t 静镶误,对冀纠正器菠弱潢鸯模式;若褥蓬蠢2 ,捌说冁发生2b i t 熬镭谟, 茏法缮正,搜孀帻丢弃,穗上穰静参散彀代它;西粼解码鑫对熬藩音蓬, 缀反对数变换避原成原来的基音值,使用浊音模式。谯清音模式下,对( 8 , 4 ) 汉明码解鹳,纠正单个比特的错误和检溯双比特镄谟。若检测到个不可 蠲正蕊锤误,怒将绘赛一个稹丢弃摇示。器瓣,簿磁掇( 7 ,4 ) 汉疆毽莠鬻 哈尔滨工程大学硕士学位论文 正这个单个错误。合成的语音模式有三种: 1 ) 帧删除模式,当解码时检测到不可纠正的错误时使用该模式,用前一 帧的参数代替当前帧的参数,并使g t = g ,不让增益改变。 2 ) 清音模式,在清音模式下将对基音、基音抖动、带通浊音强度和残差 谱的傅立叶级数等激励参数都使用缺省参数值。基音值被设为5 0 个取样,基 音抖动值设为2 5 ,所有的带通浊音强度都设为o ,残差谱的系数全置为1 。 l s f 和增益参数则给予正常的解码。 3 ) 浊音模式,此时,为1 ,若非周期标志为1 ,则基音抖动为2 5 ,否 则为0 。若为1 ,则其对应的带通浊音强度为1 ,否则为o 。若。( i _ 2 口,4 ,5 ) 为0 0 0 1 ,则k 。,设为o 。 对于l s f ,首先通过对应的码字找到每一级最佳码本矢量,然后 将这四级最佳码本求和,求得的矢量和就是解码出的l s f 参数。解码出残差 谱的傅立叶级数f ( k ) ,( k = 1 ,2 ,1 0 ) 为其码字所对应的最佳码矢量。对 于增益,需解码g 1 和嚷,先解主增益e 再解g 1 。 2 噪声抑制 m e l p 算法采用能量相减的方法去噪,它通过统计值控制总的合成增益 衰减,它认为噪声平均分配在所有频段,使用自适应噪声谱相减法来抑制噪 声,实际应用时是对解码后的增益参量进行一个小的增益衰减来实现的。衰 减对两个增益进行,对g 1 衰减之前首先要对背景噪声估计值e 进行更新,若 g 1 ,q + g 0 ,则g 1 。q + ,若g lc q 一6 i 。,则g l e g 却。,否则 g l g 。g 0 0 0 3 3 7 4 3 5 ,吼ao 1 3 5 4 1 8 ,对于每秒8 8 9 次的增益修正率, 噪声估计值最大每秒上升3 d b ,或每秒下降1 2d b ,估计值被限于1 0 和8 0 之 间增益g l 通过扣除一个修正项g 4 。来调整,e 。表达式如下: i ? 。一一l i n g ( 1 1 0 0 - “e “一q 1 )( 5 1 2 ) e 。最大不超过6 d b ,瓯上限定为2 0 d b 。 3 参数插值 m e l p 对增益、l s f 、基音周期、基音抖动、残差谱傅立叶级数、混合激 励脉冲和噪声比例、自适应谱增强滤波器的频谱倾斜系数都进行插值。若新 的基音周期起点t 。( o ,1 ,1 7 9 ) 的值小于9 0 ,则增益在前一帧的第二 个增益g 2 ,和当前帧的第一个增益g 1 之间线性插值;否则增益在本帧g l 和g , 蹬零滚工翟天攀礤士学菠论文 之间插值。熟他参数在前帧的值和当前帧的值之间线性插值。黼值因子i n i 是根据新的基啬周期的越点褒决定豹: i m = 蕞1 8 0一1 3 ) 菪比g 。大6d b , 且当前帧的基音德不劐前一帧慕皆值的一举辩,则认为 悬过渡帧,遮时直接使用新的基音值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学26年:基层消化疾病防控要点 查房课件
- 26年靶向药作用机制患教版解读
- 26年骨肉瘤精准医疗循证证据解读
- 跨境电商项目设计
- 小班品德教育活动设计实施纲要
- 教师与教育科研体系构建
- 贩卖教育焦虑现象深度解析
- 教育原理核心知识点解析
- 曝光互易律课件
- 2026养老护理员培训身体清洁协助老年人沐浴解读
- 广东省普通高中学生档案
- 《跨境电商支付与结算》-教案
- 哈萨克斯坦劳动法中文版
- 道德经原文及注释
- 第十一章-玛莎·E·罗杰斯的整体人科学模式
- 四年级下册数学-猜数游戏北师大版课件
- 居民小区物业服务投标书分项报价表
- 安全经验分享办公室安全
- 正畸头影测量分析演示文稿
- GB/T 5858-1997重载传动用弯板滚子链和链轮
- FZ/T 64043-2014擦拭用高吸水纤维织物
评论
0/150
提交评论