




已阅读5页,还剩91页未读, 继续免费阅读
(通信与信息系统专业论文)可选模式声码器算法研究及仿真实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理工大学硕士研究生学位论文 可选模式声码器算法研究及仿真实现 摘要 现代移动通信要求语音编码算法的编码速率低以增加系统容量,合成 语音音质高以保证通话质量。变速率语音编码技术是第三代移动通信系统 的核心技术,可以在上面两者间取得理想的平衡。 作为一种重要的变速率语音编码标准,2 0 0 1 年1 2 月3 g p p 2 制定了用 于宽带扩频通信系统的可选模式声码器( s m v ,s e l e c t a b l em o d ev o c o d e r ) 算 法。它实现了语音的多种低速编码和解码,能在较低码率上提供良好的合 成音质,且在合成语音质量与系统容量之间可灵活地折衷,代表了当前语 音编码技术发展的方向,因此对s m v 的研究具有很大的理论价值和实际意 义。 本文首先详细介绍了可选模式声码器算法的编码和解码原理,重点研 究了编码器中用于提高合成语音质量的关键技术,包括速率判决算法、信 号修正机制、增益判定机制、量化机制、自适应码书搜索和固定码书搜索 等,以及解码器中的可选的差错隐藏算法和后处理算法。 基于上述理论研究,随后在l i n u x 环境下仿真实现了s m v 算法。本文 给出了s m v 在不同模式、不同情况下对语音信号进行编码的对比结果,并 对其各种性能指标进行了测试,如平均编码速率、编码器和解码器算法复 杂度、p e s q 评分和坂仓距离测度等一系列实验,给出了经过s m v 编解码 后的合成语音的波形图并对其进行了语音客观评价及结果分析。 仿真实验结果证明了s m v 算法以其调整平均码率上的灵活性,优良的 l 太原理工大学硕士研究生学位论文 合成语音质量,现实可接受的硬件成本,能够在通话质量与信道利用率之 间达到较为理想的均衡,完全能满足第三代移动通信系统的高质量、高容 量的通信要求,并成为它的一个理想选择。 关键词:变速率,语音编码,可选模式声码器 太原理工大学硕士研究生学位论文 t h er e s e a r c ha n ds i m u l a t i o no fs e l e c t a b l e m o d ev o c o d e ra l g o l u t h m a b s t r a c t t h em o d e mm o b i l ec o m m u n i c a t i o nr e q u i r e sl o wc o d i n gr a t e t oe x p a n d s y s t e mc a p a c i t y a n d h i g hs y n t h e s i z e ds p e e c hq u a l i t y t o g u a r a n t e e f m e c o m m u n i c a t i o n v a r i a b l er a t es p e e c hc o d i n gt e c h n o l o g yi st h ec o r eo n eo ft h e t h i r dg e n e r a t i o nm o b i l ec o m m u n i c a t i o ns y s t e m ,a n di t sa b l et oa c h i e v ea ni d e a l b a l a n c eb e t w e e nb o t ha b o v e a so n eo ft h ei m p o r t a n tv a r i a b l er a t es p e e c hc o d i n gs t a n d a r d s , s m v ( s e l e c t a b l em o d ev o c o d e r ) a l g o r i t h mw a ss t a n d a r d i z e db y3 g p p 2f o ra p p l y i n g t ot h ew i d e b a n ds p r e a ds p e c t r u mc o m m u n i c a t i o ns y s t e m s i ta c h i e v e sl o w m u l t i r a t es p e e c h c o d i n ga n dd e c o d i n g m e a n w h i l e ,i tc a np r o v i d eg o o d s y n t h e s i z e ds p e e c hq u a l i t y a tl o wc o d i n gr a t ea sw e l la st h ef l e x i b i l i t yo f a l l o w i n gt h es y s t e mo p e r a t o rt om a k et r a d e o f f sb e t w e e ns p e e c hq u a l i t ya n d s y s t e mc a p a c i t y s m vr e p r e s e n t st h ed e v e l o p i n gd i r e c t i o no f t h ep r e s e n ts p e e c h c o d i n gt e c h o n o l o g y t h e r e f o r e ,m a k i n gr e s e a r c ho ns m vi so fg r e a tv a l u ei n t h e o r ya n dp r a c t i c a ls i g n i f i c a n c e a tf i r s t ,t h i sp a p e ri n t r o d u c e dt h ee n c o d i n ga n dd e c o d i n gp r i n c i p l e so ft h e s m va l g o r i t h m ,a n dm a i n l ys t u d i e dt h ek e yt e c h n o l o g i e si ns m ve n c o d e r , i i i 太原理工大学硕士研究生学位论文 i n c l u d i n g r a t ed e c i s i o n a l g o r i t h m ,s i g n a lm o d i f i c a t i o nm e c h a n i s m ,g a i n d e t e r m i n a t i o nm e c h a n i s m ,q u a n t i z a t i o nm e c h a n i s m ,a d a p t i v ec o d e b o o ks e a r c h a n df i x e dc o d e b o o ks e a r c h ,w h i c ha r eu s e dt oi m p r o v et h es y n t h e s i z e ds p e e c h q u a l i t y t h ef r a m ee r a s u r e c o n c e a l m e n ta l g o r i t h ma n dp o s t - p r o c e s s i n g a l g o r i t h m ,w h i c ha r es e l e c t a b l e ,w e r ea l s os t u d i e d t h e nt h es m va l g o r i t h mw a ss i m u l a t e du n d e rl i n u xe n v i r o n m e n to nt h e b a s i so fi t st h e o r e t i c a lr e s e a r c h t h i s p a p e rs h o w e dt h ec o n t r a s t i v er e s u l t s b e t w e e nt h eo r i g i n a ls p e e c hs i g n a l sa n dt h es y n t h e s i z e ds i g n a l so fs m vu n d e r v a r i o u sm o d e sa n dc i r c u m s t a n c e s i ta l s ot e s t e dt h ep e r f o r m a n c em e a s u r e so f s m vs u c ha sa v e r a g ec o d i n gr a t e ,e n c o d e ra n dd e c o d e rc o m p l e x i t i e s ,p e s q s c o r ea n di t a k u r ad i s t a n c em e a s u r e i tt o o ko b j e c t i v ee v a l u a t i o n so fs m v s d e c o d e ds p e e c hq u a l i t y ,s h o w e dt h ew a v e f o r m sa n da n a l y s i so ft h ee x p e r i m e n t a l r e s u l t s t h e s e e x p e r i m e n t a l r e s u l t s p r o v e d t h a ts m vh a st h ec h a r a c t e r so f f l e x i b i l i t yi na d j u s t i n ga v e r a g ec o d i n gr a t e ,f i n es y n t h e s i z e ds p e e c h ,a c c e p c t a b l e h a r d w a r ec o s t si nf a c ta n db a l a n c i n gb e t w e e nc o m m u n i c a t i o nq u a l i t ya n d c h a n n e la v a i l a b i l i t y ,s oi tc a nc o m p l e t e l ys a t i s f yt h et h i r dg e n e r a t i o nm o b i l e c o m m u n i c a t i o ns y s t e m sc o m m a n d so fh i g hq u a l i t ya n dh i g hc a p a c i t y ,a n db ea n i d e a lo p t i o nf o ri t k e yw o r d s :v a r i a b l er a t e ,s p e e c hc o d i n g ,s e l e c a b l em o d ev o c o d e r i v 声明尸明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;。学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名:望垒盔日期: 导师签名: 加碾( 三 太原理工大学硕士研究生学位论文 1 1 课题的目的和意义 第一章绪论 近年来,随着移动通信的发展,尤其是第三代移动通信u 。的发展,对语音编码算法 提出了更高的要求,不但要求编码速率较低以增加系统容量,而且要求合成语音音质较 高以保证通话质量。传统的压缩编码方式很难同时满足以上要求。因此,相关研究机构 提出了变速率语音编码技术。 在当前应用广泛、前景广阔的c d m a 移动通信系统中,采用变速率语音编码算法 对系统容量和通话质量有非常重要的影响。随着移动通信的飞速发展,用变速率语音编 码提高频率的有效利用率,是未来数字蜂窝和微蜂窝网的必然趋势。在保证质量的前提 下,语音的特点为实现变速率编码提供了可能性。为了获得更加实用的变速率算法,应 对变速率语音编码的自适应技术进行更深入的研究,同时要更充分地利用话音激活技术 提高频带利用率。近年来,变速率语音编码技术发展十分迅速,不断有新的国际和国家 标准公布,随着技术的成熟,变速率语音编码的应用领域将会越来越广阔,不仅在移动 通信系统,在i p 电话、互联网等领域也有很好的应用前景。 3 g p p 2 ( 3 r dg e n e r a t i o np a r t n e r s h i pp r o j e c t2 ) 于2 0 0 1 年1 2 月将可选模式声码器 ( s m v ,s e l e c t a n em o d ev o c o d e r ) 算法2 1 公布为扩频通信系统3 1 的一种候选变速率语音编 码标准,应用于c d m a 2 0 0 0 系统中。它的特点是能够通过模式选择来控制调节平均编 码速率,适应当前的信道要求。当无线信道拥挤的时候,声码器可以工作于节省模式, 降低平均编码速率,提高信道容量;当信道条件宽松时,又可以工作于标准模式,提高 编码速率,为用户提供高质量的话音。 对s m v 语音算法进行全面的理论研究分析、仿真和性能测试,可以为今后对其进 行进一步的深入研究和改进打下坚实的基础,对变速率语音编码研究工作具有重要的学 术意义。 太原理工大学硕士研究生学位论文 1 2 变速率语音编码技术综述和发展方向 1 2 1 变速率语音编码技术的产生 语音编码面临的问题主要有四个h : ( 1 ) 如何获得较低的编码速率。 ( 2 ) 如何使低速率语音编码算法的合成语音质量有更好的自然度。 ( 3 ) 在高背景噪声环境下声码器的使用。 ( 4 ) 经过多次音频转换接收仍能保持合理的接受程度。 对传统的定速率语音编码算法总体来说,较高速率的编码算法语音质量好,但系统 资源占用较大;较低速率的编码算法占用系统资源小,但语音质量不甚理想。而变速率 语音编码技术可以根据实际需要动态调整编码速率,在合成语音质量和系统容量之间取 得灵活的折衷,可以在保证语音质量的同时最大限度地发挥系统的效能。 变速率语音编码技术已经被当前的第三代移动通信系统所采纳,完全能满足其高质 量、高容量的通信要求,而且非常适合分组交换网络,因此获得了很大的发展,成为了 当前语音编码的研究热点。 从2 0 世纪9 0 年代起,各种通信组织相继推出了各种变速率算法标准,如q u a l c o m m 公司的码激励线性预测( q c e l p ) 5 旬 、增强型变速率编解码器( e v r c ) 盯引、自适应多 速率( a m r ) n 引、自适应多速率宽带( a m r w b ) 1 、可选模式声码器( s m v ) 1 2 m 3 1 和变 速率多模式宽带( v m r - w b ) u 副等。 1 2 2 变速率语音编码技术标准 1 9 9 3 年美国高通( q u a l c o m m ) 公司提出了q c e l p ( q u a l c o m i n 码激励线性预测) 算 法,包括8 k b s q c e l p 和1 3 k b s q c e l p 两种,它们都包括四种编码速率( 8 5 5 ,4 o , 2 0 和0 8 k b s ) 。1 9 9 3 年,美国通信工业协会( m ) 公布了基于8 k b s q c e l p 的i s - 9 6 协议;1 9 9 7 年t i a 又公布了基于1 3 k b s q c e l p 的i s 一7 3 3 协议。q c e l p 已经成为北美 c d m a 通信系统标准。q c e l p 基于码激励线性预测( c e l p ) ,特点有:根据信号能量和 背景噪声动态调整编码速率,在基本不影响语音质量的前提下能够明显降低平均码率; 2 太原理工大学硕士研究生学位论文 自适应码书搜索采用开环基音分析与闭环搜索相结合的形式;固定码书采用循环递归结 构,减少了码书搜索的计算量和存储空间。 1 9 9 7 年美国通信工业协会( t 队) 公布了基于增强型变速率编解码( e v r c , e n h a n c e dv a r i a b l er a t ec o d e c ) 算法的i s - 1 2 7 协议,它采用了三种编码速率( 8 5 5 ,4 o 和0 8 k b s ) 。e v r c 基于松散码激励线性预测( r c e l p ) 算法,特点是由每帧的基音延时 估计和帧与帧之间的基音线性内插得到基音包络,并依照基音包络来修正残差信号,而 不是相传统的c e l p 编码那要对原始语音信号作精确的匹配。 1 9 9 9 年3 g p p ( 3 r dg e n e r a t i o np a r t n e r s h i pp r o j e c t ) 标准化组织公布了w c d m a ( w i d e c o d ed i v i s i o nm u l t i p l ea c c e s s ) 的语音编码标准:自适应多速率语音( a m r , a d a p t i v em u l t i r a t e ) 语音编码算法。它支持8 种速率模式( 1 2 2 ,1 0 2 ,7 9 5 ,7 4 0 , 6 7 0 ,5 9 0 ,5 1 5 和4 7 5 k b s ) 。a m r 基于代数码激励线性预测( a c e l p ) 算法,可以 根据无线信道和传输状况来自适应地选择一种最佳信道模式( 全速率或半速率) 和编码 模式进行编码传输。 曩2 0 0 0 年1 2 月3 g p p 选择自适应多速率宽带( a m r - w b a d a p t i v em u l t i r a t ew i d e b a n d ) 作为第三代移动通信推荐使用的语音编解码算法,于2 0 0 1 年3 月最终确定并正式公布。 2 0 0 2 年1 月,1 t u - t 采纳了a m r - w b 作为w - c d m a 宽带语音编码的新标准。a m r - w b 是通信史上第一种可以同时用于有线与无线业务的语音编码系统。这种算法支持九种速 率模式( 6 6 ,8 8 5 ,1 2 6 5 ,1 4 2 5 ,1 5 8 5 ,1 8 2 5 ,1 9 8 5 ,2 3 0 5 和2 3 8 5 k b s ) 。相 对于a m r ,a m r - w b 语音带宽有所扩展,采样率提升了一倍,音质更加接近面对面交 流的效果。 2 0 0 1 年1 2 月3 g p p 2 ( 3 r dg e n e r a t i o np a r t n e r s h i pp r o j e c t2 ) 制定了s m v 算法标准。 在s m v 算法中,对每一语音帧,速率选择算法根据声码器的工作模式和输入语音信号 的帧类型来选择4 种可能的编码速率( 8 5 5 ,4 0 ,2 0 和0 8 k b s ) 。s m v 算法有6 种 可选工作模式( 模式0 模式5 ) ,不同模式在平均码率和语音质量之间的侧重点略有不 同,其中模式0 与e v r c 兼容。 2 0 0 3 年3 g p p 2 选择诺基亚公司设计的变速率多模式宽带( 眦- w b ,v a r i a b l er a t e m u l t i m o d ew i d e b a n dc o d e c ) 语音编解码器作为标准。v m r - w b 是一种新型可变速率多 模式宽带语音声码器,根据每帧信号的特点和选择的运行模式通过内置的速率选择机制 来选择一个对应的编码类型。它有四种编码速率可供选择。由于v m r - w b 是基于 太原理工大学硕士研究生学位论文 a m r - w b 语音声码器的核心算法上实现的,因此可以和a m r - w b 的其中一种运行模 式兼容。 1 2 3 变速率语音编码技术的速率判决方式 变速率语音编码采用的速率判决方式u 副主要有信源控制、信道控制和网络控制三 种。s m v 算法采用的是信源控制和信道控制相结合的速率判决方式。 根据语音源的声道( 短时) 特性,以一定形式动态分配比特数,叫做信源控制。典型 的信源控制变速率编码器采用了话音激活检测( v a o ,v o i c ea c t i v i t yd e t e c t i o n ) n 6 1 1 7 3 技 术。在电话通信中,每帧信号的信息量是不同的,在通话方不说话时,信号帧只包含背 景噪声。即使在通话时,有些帧也只有清音,只需用较低的速率进行编码,而对激活话 音部分用较高的速率进行编码。 根据信道的质量改变每帧语音信号的编码速率,叫做信道控制。在信道质量不好时, 信道编码中的冗余比特数不足以纠正传输错误,这时应提高信道编码速率( 增加冗余比 特数) ,减小语音编码速率,以保证通话质量。相反,在信道质量好时,应提高语音编 码速率来提高语音质量。 解决蜂窝移动系统的中的网络拥塞问题,即网络控制。通过改变每个用户可用的平 均比特率,网络可以在容量与通话质量之间较好地折衷,使网络在大部分时间内保证有 很好的语音质量,在高峰时段又可为大量用户提供可接受的通话质量。 1 2 4 变速率语音编码的发展方向 随着移动通信的飞速发展,对变速率语音编码技术的研究将是未来数字蜂窝网和微 蜂窝网的必然发展趋势。未来的移动通信系统可以将上小节所述的几种控制方式有机地 结合起来,研究出更加实用的变速率算法,使系统更好地发挥作用,让用户更加满意。 另外,未来变速率语音编码技术还可以在下面三个方面进行深入研究n 引: ( 1 ) 对速率判决的进一步改进 通过对速率判决算法的改进提高编码的效率。把更精准的v a d 技术应用到速率判 决算法中来,使速率判决更符合语音信号的特性,从而进一步降低编码速率或提高合成 语音质量。 4 太原理工大学硕士研究生学位论文 ( 2 ) 与新的低速率语音编码技术结合 近年来出现了很多新的低速率语音编码算法吣1 2 0 1 2 1 1 嘲。我们可以对低速率语音编 码作进一步的研究,并与变速率语音编码技术比副结合起来,以获得更低的平均编码速率, 或采用其中的有益技术来提高合成语音的质量。 ( 3 ) 算法复杂度的进一步降低 算法复杂度和合成语音质量、编码速率三者之间通常可以彼此互相转化,例如采用 复杂度较高的算法可以在相同的编码速率下获得更高的语音编码质量,或在相同的编码 质量下实现更低的编码速率。增加算法的复杂度可以提高语音质量,但也往往会增加编 解码延时。算法复杂度与硬件实时实现也有密切的关系。通过深入研究变速率语音编码 技术,并找到进一步降低算法复杂度的技术关口,也具有积极的实际意义。 1 3 本论文的研究内容和章节安排 二本文以3 g p p 2 制定的s m v 算法标准为基础,详细介绍并深入研究了s m v 语音编 解码算法的原理,并对其进行了仿真实现和性能测试、合成语音的客观评价。 第一章为绪论,简要介绍了变速率语音编码技术的基本思想、发展历程和各种标准, : 以及变速率语音编码技术的发展方向。 第二章对s m v 算法的编码器的预处理、l p c 分析、参数内插、感觉加权滤波、速 率和编码类型选择、开环基音分析、信号修正、自适应码书搜索和固定码书搜索等关键 模块进行了详细的介绍和研究。 第三章对s m v 算法解码器的l s p 解码、激励解码以及可选择的差错隐藏、后处理 等模块进行了简要的介绍和分析。 第四章对s m v 算法进行了仿真实现,并对其各种性能指标进行了测试,如平均编 码速率、编码器和解码器算法复杂度、p e s o 评分和坂仓距离测度等一系列仿真实验,给 出了经过s m v 编解码后的合成语音的波形图,并对其进行了语音客观评价及实验分析。 第五章为本课题的总结和展望。对论文工作进行总结,并提出了论文下一步的工作 和研究内容。 太原理工大学硕士研究生学位论文 2 1s m v 编码器概述 第二章s m v 算法编码器原理 s m v 比刮由四种编解码器组成,分别是全速率、半速率、1 4 速率和1 8 速率编解码 器,编码码率分别为8 5 k b p s ,4 0 k b p s ,2 0 k b p s 和0 8 k b p s ;s m v 有6 种可选工作模 式,分别记为模式0 模式5 ,不同模式在平均码率和语音质量之间的侧重点略有不同。 其中模式4 和模式5 的最高编码速率为半速率。模式4 对应于模式0 ,即对模式o 选用 全速率进行编码的帧,模式4 使用半速率进行编码,而对模式o 选用其它速率进行编码 的帧,模式4 选择相同的速率进行编码;模式5 对应模式1 ,对应的规则和模式4 与模 式o 的对应规则一致。s m v 的工作模式信息由移动通信的基站提供,用3 比特表示, 其中2 比特用于指示模式0 模式3 ,1 比特为最大半速率标志。s m v 的工作模式和所 选用速率之间的关系如表2 - 1 所示。 表2 - 1s m v 模式与选用速率关系 t a b2 - 1r e l a t i o n s h i pb e t w e e ns m vm o d ea n dr a t es e l e c t i o n 模式0模式1模式2模式3 模式4 模式5 全速率 半速率 0- 1 4 速率 -j- 1 8 速率 j 其中模式0 和模式4 没有选用1 4 速率,是为了和当前的c d m a 语音编码标准i s - 1 2 7 兼容 s m v 根据语音帧参数和s m v 的工作模式选择一种编解码器对输入语音帧进行处 理。四种编解码器均基于激励一滤波方法,即线性预测( l p ) 滤波器经激励源激励来得到 还原语音的方法。l p 滤波器参数和激励被量化编码从编码器传输给解码器。全速率和 半速率的l p 滤波器激励由两部分组成,分别是自适应码书贡献和固定码书贡献。1 4 速率编解码器的激励由随机数产生器产生。它将随机矢量分为1 0 个子帧,每子帧乘以 一个增益因子,再经选择的整形滤波器滤波得到l p 滤波器激励。1 8 速率编解码器的激 励由随机数产生器产生,再乘以增益得到。 s m v 称为可选模式声码器,其可选性不仅体现在其工作模式可选,而且其算法的 组成部分如噪声抑制算法和语音活性检测算法各有两种模式可供选择,而其差错隐藏算 法和后处理算法可以根据实际情况使用或不使用。 6 太原理工大学硕士研究生学位论文 s m v 算法对语音信号的采样率为8 k h z ,每16 0 个样点为一帧,帧长为2 0 m s ,它还 使用未来帧8 0 个样点( 1 0 m s ) ,即帧间重叠1 2 。每一帧在速率和编码类型确定之前的 分析过程中统一将语音帧分为4 个子帧,每子帧4 0 样点,在速率和编码类型确定之后, 根据所选择的速率及帧类型将语音帧重新划分( 1 8 速率除外,1 4 速率将语音帧分为1 0 个长度相等的子帧) ,全半速率的子帧与编码类型及速率的关系见表2 - 2 。 表2 - 2 速率、帧类型与子帧长度的关系表 t a b2 - 2r e l a t i o n s h i pb e t w e e nr a t e 、f r a m et y p ea n ds u b f f a m el e n g t h 全速率半速率 类型0类型1类型0类型1 第一子帧长 4 04 0 8 0 5 3 第二子帧长4 04 08 05 3 第三子帧长4 04 05 4 第四子帧长 4 04 0 总子帧数 4 423 在传统的码激励线性预测( c e l p ) 乜胡编码中被广泛应用的闭环合成分析方法可以得 到良好的合成音质,但因为在搜索过程中对每一个候选矢量都要进行合成滤波,并将结 果比较以选取最优,所以计算量较大,复杂度偏高。s m v 全半速率语音编码算法基于 扩。展码激励线性预测( e x c e l p ) 汹1 。e x c e l p 的主要特点c o l a ( c l o s e d 1 0 0 p - o p e n 1 0 0 p a n a l y s i s ) 技术,即将在传统的c e l p 中得到广泛应用的闭环合 成分析搜索方法与为增强语音信号的感觉特征而采用的基于感觉的判决( 开环) 方法结 合起来。它的主要目的是针对不同类型的语音灵活地选择最适合的分析方法( 开环、闭 环或两者联合的方法) ,以期保留输入信号中对人感觉上重要的内容的同时降低算法复 杂度。v a s ( v a r i a n ta l g o r i t h ms t r u c t u r e s ) 技术,即对不同种类的语音信号采用不同的 算法结构,原因是相同的参数对不同种类的语音,其重要程度不同,所以需要区别对待, 目的是为了在相同码率的条件下增强合成音质。c o l a 和v a s 技术的使用均建立在详 尽的语音分类和参数估计的基础之上,如图2 - 1 所示。 7 太原理工大学硕士研究生学位论文 陆音激活检测 0 陪乐信号检测 上 隋触音水平检测i 上 静音分刿 j 上 陕别修正i 奔 上 陲于模式的速率选矧 上 陲音周期预处理中 j ! l 的非静音分类 上 随率类别修正| 上 | 处理编硎 浊音 音 不稳定浊音 图2 - 1s m v 编码器语音分类 f i g2 - 1s p e e c hc l a s s i f i c a t i o ni ns m v e n c o d e r s m v 对每一语音帧进行详尽的分类,将之分为:静音背景噪声帧、类噪声帧、清 音帧、起始浊音帧、不稳定浊音帧和稳定浊音帧六类。分类采用分级细化的方法,首先 在v a d 模块对语音帧进行粗分类,然后再逐级细化。其中静音背景噪声帧和类噪声帧 可以用经能量调制的噪声来表示,在s m v 中根据不同工作模式选择1 4 或1 8 速率编 解码器对其进行编码;对于其他帧,用全速率或者半速率编解码器进行编码。s m v 还 根据输入语音的不同类型为全速率和半速率的语音帧选择一个编码类型,可以是0 或者 1 ,编码类型为1 的帧表示稳定的浊音帧,而编码类型为0 的帧表示其他类型帧;对具 有不同的编码类型的帧采用不同的编码策略,这主要体现在激励编码和参数量化上。编 码类型根据在信号修正模块得到的基音预测增益来判断,如果基音预测增益有一个较高 的值,则将其编码类型划分为1 ,否则划分为0 。 s m v 编码器原理框图如图2 - 2 所示。其中预处理模块包括静音增强、高通滤波、 噪声抑制和自适应倾斜补偿滤波。帧处理模块如图2 3 所示,它包括l p c ( 线性预测编 码) 分析、l s p ( 线谱对) 平滑和量化、开环基音周期搜索、信号修正和语音分类。对每一 语音帧( 2 0 m s ) ,速率判决模块根据语音参数和模式信息对输入语音进行分类,并选择适 8 太原理工大学硕士研究生学位论文 当的编码类型和编码速率,再根据选择的类型和编码速率对语音参数进行量化和编码。 输入语音 图2 - 2s m r 语音编码器原理框图 f i g2 = 2s c h e m a t i cd i a g r a mo fs m ve n c o d e r 输入语音加权语音 图2 - 3s m v 编码器帧处理模块原理图 f i g2 - 3s c h e m a t i cd i a g r a mo f f r a m ep r o c e s s i n gm o d u l ei ns m v e n c o d 盱 2 2 预处理 修 正 的 加 权 语 音 输入到s m v 编码器的语音信号在编码前要经过4 个预处理单元,如图2 - 4 所示。 m x 语音s ( n ) j ( 以)s ”( 甩), 图2 - 4s m v 预处理模块原理框图 f i g2 - 4s c h e m a t i cd i a g r a mo f s m vir e - p r o c e s s i n g 9 太原理工大学硕士研究生学位论文 2 2 1 静音增强 静音增强目的是为了减少低水平噪声,尤其是a 律擗量化噪声。实现过程如下: ( 1 ) 极值确定: 首先在语音帧内寻找两个最大值和两个最小值,如下所示: m a x o = j ( 刀o ) :s ( n o ) s ( n ) 麓三淼蒜篙川钒嘶虬 一m 组1 ,砌o = j ( ) :s ( n o ) s ( 甩)( 2 ) m i n l = s ( ) :s ( n 1 ) 5 ( 刀),n o 其中,= 1 6 0 表示帧长。 再寻找两个最小的正值和两个最大的负值,如下所示: m i n p o s o = j ( ,) :s ( n o ) j ( 刀) ,s ( n o ) 0 m a x n e 9 1 毒黜2 s ( n 手兰2 主0 如飞斛加一q 2 ,o = j ( 刀o ) :o ) s ( 刀) ,5 ( 刀o ) 7 _ m a x n e g o = s ( 刀1 ) :s ( n 1 ) s ( 力) ,s ( n 1 ) 0 ,疗1 刀o ( 2 ) 参数及门限的初始化和更新 将代表0 值的水平圪矾d 初始化为8 。如果吃啪 m i n p o s o ,则将m i n p o s o 的值赋给 圪嘞。 在第一帧,初始化四个门限及信号的最小幅值跨度切: t h _ 2 = - 2 4 ,t h _ l = 一8 ,t h + l = 8 ,孤2 = 2 4 ,朋二胁= 6 5 5 3 4 然后计算语音帧内的幅值跨度= m a x o 一朋魄。如果 m 血加,且m 打0 , 则伽= 蚝。如果m 曲切4 8 ,则门限值更新,否则不更新门限。 ( 3 ) 静音判决 计算三个值且,鸥,马,其中q 为语音帧中幅度值在区间【r h _ 。,o ) 内的样点个 数,马为语音帧中幅度值在区间【0 ,t h + 。】内的样点个数,岛为语音帧中幅度值在区间 - 3 2 7 6 8 ,观:) u ( 砜2 ,3 2 7 6 7 内的样点个数。计算当前帧的区间样点值的比率: l o 太原理工大学硕士研究生学位论文 豫挈:粤,朋等:_ h ! + h 2 ,朋缪:导( 下标州代表当前帧) - 两“f h ,io f h ,l 当前帧的区间样值比率、前三帧的区间样值比率以及前一帧的静音判决结果用来产 生当前帧的静音判决结果。实现如下: 首先确定进行静音增强的条件: c o n d l = ( ( 瑚孑 o 5 5 ) u ( 豫等 o 0 7 ) ) c o n d 2 = ( ( 歙并 o 5 5 ) u ( 朋篇 o 0 7 ) ) c o n d 3 = ( ( p r 胪2 。l r 0 2 o 5 5 ) u ( 袱l o w 2 o 0 7 ) ) c o n d 4 = ( ( p r z c r 0 3 - 0 9 5 ) n ( 硝o 0 3 ” c o n d 6 = ( ( p r 们g e ? oi 0 9 0n ( p r l o w l 0 9 0 ) n ( 酵o 0 3 ) ) c o n d 7 = ( ( m 孑o s on ( p r 筘l 0 9 0 ) n ( 础o 0 1 ”n ( 所z l = 1 ) ) c o n d 8 = ( ( 咫? o 7 5 a ( p r 茄i 1 0 7 5 ) n ( 肚o 0 0 4 ) ) n ( 删叫= 1 ) ) 其中,下标妒:表示本帧前面第歹的帧的相应参数值,s i l 蔓j 静音判决结果。 如果条件c o n d l c o n d 4 有一个条件为真,则置研乙= 0 ,表明本帧为非静音帧, 否则就判断条件c o n d 5 c o n d 8 ,如果其中有一个条件为真,则置0 = 1 ,否则置 如果- 研乙= 1 ,s i l m l = 0 ,则 也2 二堕:兰盟! :鳖 j 飞功= i 4 。 如果跏州= 0 ,蹦l = 1 ,则: s b ,一 0 刀 4 0 4 0 拧 工加 ( 2 3 ) 0 s 刀 4 0 ( 2 4 ) 4 0 刀 三加 太原理工大学硕士研究生学位论文 如果肼谢= 1 ,s i l p , , , 。= 1 ,则置当前帧所有值为圪聊。 如果0 = o ,嬲。= 0 ,则输入输出保持不变。 2 2 2 高通滤波 高通滤波模块完成两个主要功能:高通滤波( 8 0 4 0 0 0 h z ,主要抑制5 0 h z 工频干扰) 和信号幅度压缩。高通滤波器的传输函数为: 2 2 3 噪声抑制 日( z ) :0 5 0 9 2 7 2 7 4 3 5 - 1 8 5 4 4 9 _ 4 l z - + 0 9 2 7 2 j 7 4 3 5 z - 2、7 i 一1 9 0 5 9 4 6 5 z 叫+ 0 9 l1 4 0 2 4 z 叫 噪声抑制模块啪3 通过降低语音信号中混杂的噪声以改善提供给模型参数估计的语 音信号质量,从而提高参数估计的精度。噪声抑制有模式a 和模式b 两种可选,其不 同在于使用不同的分析合成窗和缓存方法。因为语音帧长度为2 0 m s ,而噪声抑制处理 子帧长度为l o m s ,所以每一语音帧要执行两次噪声抑制,见图2 - 5 。 攻以) g 倒刑 图2 - 5 噪声抑制模块框图 f i g2 - 5n o i s es u p p r e s s i o nb l o c kd i a g r a m s m v 的噪声抑制算法的原理是利用噪声和语音在不同频带能量分布不同的特点对 噪声进行抑制,语音相对噪声而言其能量较集中,所以在语音能量较高的频带乘上一个 较大的因子,在语音能量较低的频带乘以一个较小的因子,即可实现对噪声的抑制。具 1 2 太原理工大学硕士研究生学位论文 体实现过程如下: ( 1 ) 信号叠接和加窗 在噪声抑制模式a 中,给输入信号加梯形窗,输入帧的前d 个样点与前一帧的后d 个样点叠接,即: d ( m ,z ) = d ( m - 1 ,三+ n ) ,o n d ( 2 6 ) 其中肌是当前帧的序号,玎是缓冲区的样点序号,三= 8 0 为噪声抑制帧长,d = 2 4 为交 叠的样点数。输入帧经预加重,如下: d ( m ,d + 万) = s ”( 疗) + 乞s ( n - o ,o n l ( 2 7 ) 其中乞= - 0 8 是预加重因子。 通过预加重可以增加一个零点,以抵消浊音语音中由于声门波引起的频谱幅度下 跌,使信号谱变得平坦,还可以减小信号动态范围。然后对输入帧加平滑梯形窗得到: g ( ,砂= 獭,母2 专笋 d ( m ,以) d ( m ,力) s i i l 2 n ( n - l 面+ d 一+ 0 5 ) 0 0s 玎 d ds 刀 三 ( 2 8 ) l 刀 d + 三 d + 三九 m 其中m = 1 2 8 为d f t 序列长度。 噪声抑制模式b 与模式a 相同的是,输入要经过同样的叠接和预加重,公式同式 ( 2 6 ) 和式( 2 7 ) 。但不同的是模式b 中的d = 2 p 。一= 1 8 ,其中d 伽= 1 2 ,- - 6 , 分析窗为梯形窗,如图2 - 6 所示。其分析窗定义为: 厶( 以) = 瓦n + 可l ,。刀 ( 2 9 ) n 。 d 。 1 4 d 明 图2 - 6 噪声抑制模式b 所用的梯形窗 f i g2 - 6t r a p e z o i dw i n d o wu s e db yn s _ b 将分析窗加到预加重的输入信号之上,得到: 1 3 太原理工大学硕士研究生学位论文 l 积功厶 l 积功 荆2 1 地力厶+ 战一咖1 ) 1 0 0 刀 聆 三+ 一 ( 2 1 0 ) 三+ d i 伽一d 0 刀 三+ 战一d 岛 三+ 战一d 0 刀 ,。j 札 ( 2 1 2 ) 其中,m 代表帧序号,i 或k 代表频段编号,最小允许频谱能量= 0 0 6 2 5 ,a , h ( m ) 是频段能量平滑因子,札= 1 6 是频段数目,无( f ) 为第i 频段的起始编号,厶( f ) 为第i 频 段的结尾编号,( 肌) 在第一帧中的值为0 ,在后续各帧中的值为0 4 5 。这使频段能量估 计被初始化为第一帧的未滤波的频段能量,并随后续帧自适应更新。 ( 4 ) 频段信噪比估计 为了计算方便,要对信噪比进行量化。按下式估计量化的信噪比: 1 4 太原理工大学硕士研究生学位论文 删:酬。,m i n 8 9 d 型篙警刨) ) ) ,o 跳( 2 1 3 ) 其中e ( 脚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高速公路收费员工作总结
- 机场防护服穿脱培训
- 2025年雅安招标采购从业人员专业技术能力考试(招标采购项目管理中级)冲刺试题及答案
- 电力储能工作总结
- 2025年度租赁合同范本汇编
- 脊柱骨科护理带教计划
- 艺术机构双减工作实施汇报
- 公司年度安全培训费用课件
- 2025员工不续签合同办理指南
- 2025年塔吊操作员聘请合同
- 2025年零碳园区综合能源技术发展现状与展望报告-华电电科院
- 环保工程现场施工方案(3篇)
- 索尼微单相机A7 II(ILCE-7M2)使用说明书
- 中级护理真题题库及答案解析
- 一年级新生开学第一课常规训练
- 直播助农培训课件
- 长期照护师抗压考核试卷及答案
- 2025版自然人个人创业孵化器贷款协议
- 2025广东汕尾市海丰县公安局招聘警务辅助人员50人备考题库及答案解析
- 消防政府专职队培训课件
- 档案管理基本知识培训课件
评论
0/150
提交评论