（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：62 大小：1.70MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf_第2页

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf_第3页

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf_第4页

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf_第5页

已阅读5页，还剩57页未读，继续免费阅读

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要 2 l 世纪的通信应该是人与人之间方便快捷、可多种手段实现信息交换的形式。其中，通过语音传递信息是人类最重要的、最有效和最方便的通信方式，因此语音通信在现代数字通信系统中占有重要的地位。随着信息社会的快速发展，通信信道资源变得非常宝贵，各种语音压缩编码技术应运而生。高速数字信号处理器的出现，使得语音编码算法可以实肘的实现，并且带动语音压缩技术得到了突飞猛进的发展，低速率语音编码已成为数字通信中的一个重要的研究领域。本文介绍了一种多带激励语音低速率编码算法。多带激励算法是一种基于合成分析的参量编码方法，它将一帧语音数据的频谱按基音频率分成多个谐波频带，在每个频带上进行清浊判别，从而更准确地提取并表达了语音特征信息，根据每个带是清音还是浊音采用不同的激励合成语音。其结果是在很大范围内改善了解码合成后的语音质量，而算法的复杂度并没有明显增加。它不仅在低速率上能恢复出音质比传统声码器好得多的语音( 可达到2 4 k b p s 或更低的编码速率) ，而且具有良好的自然度和容忍环境噪声的能力，是目前较为理想的低速率语音编码方案。本文改进了语音基音周期粗估时的语音基音周期的平滑算法，经仿真结果表明，在算法复杂度没有增加的情况下，减少了语音编码的延迟，同时也提高了语音模型分析中的基音周期估计和清浊音判决估计的准确性。本文最后介绍了实现语音编码算法的实时数字信号处理系统的设计，实时系统的核心选择了t i 公司的高性能的定点t m s 3 2 0 c 6 4 1 6 d s p ，配合d s p 的软件开发集成环境c c s 和各种d s p 外围电路例如a d 转换电路t l v 3 2 0 a i c 2 3 、s d r a m 、f l a s h 和c p l d 等设计多带激励声码器的实时系统。该低速率语音的编解码系统可以在数传电台上面应用，使数传电台在传输数据的同时可以传输话音。关键词：低速率语音编码；多带激励；合成分析；数字信号处理器( d s p ) a b s t r a c t i n21c e n t u r y , c o m m u n i c a t i o ns h o u l ds u p p l ya l lk i n d so fg o o dw a y st os a r i s f y p e o p l e sn e e di ne x c h a n g i n gi n f o r m a t i o nc o n v e n i e n t l y b e c a u s em o s tp e o p l et r a n s f e r i n f o r m a t i o nb ys p e e c h ，w h i c hi st h em o s ti m p o r t a n t ，e f f i c i e n ta n dc o n v e n i e n tw a yi n c o m m u n i c a t i o n ，s p e e c hc o m m u n i c a t i o nh o l d st h ei m p o r t a n c e i nm o d e md i g i t a l c o m m u n i c a t i o ns y s t e m h o w e v e rt h es o u r c e si nc o m m u n i c a t i o ne s p e c i a l l yt h e f r e q u e n c ys o u r c eb e c o m em o i la n dm o r ev a l u a b l e w i t ht h ed e v e l o p m e n to f i n f o r m a t i o ns o c i e t y t h e nm o r ea n dm o r es p e e c hc o m p r e s sc o d i n gt e c h n o l o g i e sc o m e i n t ob e i n gt od e c r e a s eh i tr a t ei nt r a n s m i s s i o na n dd a t as t o r a g eq u a n t i t yw h e ni n m e m o r y h i g hs p e e dd s p s ( d i g i t a ls i g n a lp r o c e s s o r s ) m a k ei tp o s s i b l et or e a l i z et h e r e a lr e a l t i m es p e e c h c o d i n gs y s t e m a f t e rm a n yy e a r sr a p i d l yd e v e l o p m e n to fs p e e c h c o m p r e s s i o nt e c h n o l o g y , i tb e c o m e sm o t e a n d m o r ei m p o r t a n t t h i sp a p e ri st oi n t r o d u c ea na l g o r i t h mo fl o wb i tr a t es p e e c hc o d i n g - m b e m b ei sap a r a m e t e rc o d i n gm e t h o db a s e do na n a l y s i s s y n t h e s i s i ts u b d i v i d e ss p e e c h f r a m et os e v e r a ls u b - b a n d sa n de s t i m a t e sp a r a m e t e r si ns u b b a n d s t h e nb a s e do nt h e v o i c e u n v o i c ej u d g e m e n to fe v e r ys u b - b a n d st od e c i d ea p p l yd i f f e r e n te x c i t e ds o d r c e i nc o m p o s i n gs p e e c h s oi tc a ng e tm o r ep r e c i s ep a r a m e t e r so fs p e e c ht oi m p r o v et h e q u a l i t ya n dr o b u s m e s so fs p e e c hi nd e c o d i n gp a r ta n dt h ec o m p l e x i t yo ft h ea l g o r i t h m i sn o ti n c r e a s ea p p a r e n t l y w ea m e n d e dt h ep i t c hs m o o t ha l g o r i t h mi np i t c hf i r s t e s t i m a t i o np h a s e ，i m p r o v e dt h ee s t i m a t i n gp r e c i s i o no fs p e e c hp i t c ha n dt h ej u d g m e n t v o i c e da n du n v o i c e ds p e e c h a tt h es a m et i m er e d u c et h ed e l a yb e c a u s eo f t h es p e e c h c o d i n g a tl a s t ，p a p e rw i l lp r e s e n tt h ed e s i g no fl o wb i tr a t es p e e c hc o d i n gr e a l t i m e s y s t e mb a s e do nt m s 3 2 0 c 6 4 1 6 d s po ft ic o m p a n y t h es y s t e mi n c l u d ec c si d e s o f t w a r ea n do t h e rd s p sh a r d w a r e p e r i p h e r a l si n c l u d i n g ：a d d am o d u l e t l v 3 2 0 a 1 c 2 3 ，c p l d ，s d r a ma n df l a s h t h i sl o wb i tr a t es p e e c hc o d i n g s y s t e mi s b a s e do i lr a d i od i g i t a ld a t at r a n s f o r m i t t i n gs t a t i o na n dc a nm a k ed i g i t a ld a t a t r a n s f o r m i t i n gs t a t i o ns u p p o r ts p e e c ht r a n s m i s s i o n k e yw o r d s ：l o wb i tr a t es p e e c hc o d i n g ；m b e ：a n a l y s i s - s y n t h e s i sd s p 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得鑫注盘鲎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名：稚瑚签字日期：如啊年月，9 日学位论文版权使用授权书本学位论文作者完全了解叁生盘鲎有关保留、使用学位论文的规定。特授权盘盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名：；苦旭导师签名：彩悟薛签字日期：坷年月冲日签字日期：沙，年月订日天津大学硕士学位论文第一章绪论 1 1 研究的应用背景第一章绪论语言是人类进行相互通信的最方便快捷的手段，在高度发达的现代社会中用数字化的方法进行语音的传送、识别、增强、存储等是数字通信网中不可分割的基本组成部分。数字传输方式使得语音的传输变得多样化、追求低成本变得可能、保密性要求得到满足，同时频谱资源的利用率也更加有效。但是，如果对语音信号直接采用模数转换技术进行编码，则传输或存储的数据量太大，为了降低传输或存储的费用，必须对其进行压缩。各种语音压缩编码技术就是为了减少传输码率或存储量，以提高传输的效率，同时也要尽量保持语音的可懂度和音质。从应用的角度来讲，虽然现在已有光纤信道，明显改善通信对带宽的限制，但是在移动通信和卫星通信中语音压缩编码仍然十分重要。很多发达国家都致力于通过降低语音编码速率来扩大移动通信系统的容量。此外，在电话线上传输加密的数字话音，由于带宽仅为2 0 0 3 4 0 0 h z ，所以只能采用2 4 k b p s 甚至更低的速率传输；短波电台数字话音通信需要采用2 4 k b p s 以下的语音编码算法。本科题的研究就是结合数传电台系统，研究在电台传输数据的同时能够传输语音。从1 9 8 5 年b s a t a l 和m r s c h r o e d e r 提出了码本激励线性预测( c e l p ) 算法以来，闭环分析算法( l p a b s ) 成为主流，1 0 年间产生了3 个国际标准分别是：( c c i t t 公布的g 7 2 8 - - 1 6 k p s 短时延码激励线性预测( l d c e l p ) ，g 7 2 3 5 3 6 3 k p s ( a c e l p m l q ) 双速率多媒体语音编码标准，g 7 2 9 - - 8 k b p s 共轭结构代数码激励的语音编码标准( c s a c e l p ) ) ；2 个地区性的标准分别是( 北美蜂窝电话工业组织 ( c t u a ) 公布的i s 一5 4 ，8 b p s 矢量和激励线性预测( v s e l p ) 语音编码方案，欧洲电信管理局公布的1 3 k b p sr p e - l t p 线性预测语音编码方案) ；2 个国家标准分别是( 美国国防部公布了4 8 k b p s c e l p 联邦标准( f s 一1 0 1 6 ) 和日本公布的6 7 k b p s ( v s e l p ) ) ，还有国际海事卫星组织( i n m a r s a t ) 于1 9 9 0 年公布的4 1 5 k b p s 改进多带激励( i m b e ) 语音编码标准“”，可见语音压缩编码的研究发展之快。此外，语音压缩的潜力很大。从信息论的角度估计，语音中最基本的单位是音素，音素约有1 2 8 2 5 6 个，按照普通的说话平均速率每秒钟说l o 个音素，因此平天津大学硕士学位论文第一章绪论均的信息率为8 0 b p s ，语音压缩编码的极限速率可达到8 0 1 0 0 b p s ，但说话者的音质和音调几乎全部丢失，要达到这个目标还要对人脑的理解和感知信号的生理过程有深入的研究，这将是长期而艰巨的工作。可以看到从标准码率到极低的极限压缩速率还有一定的跨度，所以低速率语音编码技术的研究和实际的应用有很大的潜力，对研究者有很大的吸引力。 l 2 低速率语音编码本文中语音编码的对象是2 0 0 3 4 0 0 h z 的电话带语音。将语音限带到4 k h z 并以8 k h z 采样，基本的数字量化技术为脉冲编码调制( p c m ) 。各种语音压缩编码算法大体可以分为三大类：波形编码、参量编码和混合编码。波形编码力图使重现语音波形保持原语音信号的波形形状，具有适应力强和很高的语音质量；但是通常编码速率较高，一般在1 6 k b p s 以上。参量编码又成为声源编码，是将语音信号在频域或其它的正交变换域上提取特征参量，再根据特征参量重建语音信号；可是重建语音的波形和原始语音的波形可能有很大的差别，参数编码可以实现较低速率的语音编码，但是语音的质量中等。混合编码是综合了波形编码和参数编码的技术，在中速率语音编码中得到了合成质量较高的合成语音。比特率低于4 k b p s 的低速率、高质量的语音音编码是当前研究的重点。八十年代以来，低比特率的算法主要分为两类，一类是基于线性预测的合成分析编码，采用均方误差最小准则逼近原始语音；另一类是采用正弦模型，使合成的语音频谱与原始语音频谱接近，如正弦变换编码模型( s t c ) ，多带激励模型 ( m b e ) 等。随着编码速率的不断降低，必然会出现下述问题： 1 、语音中存在一定的压缩度，但随着压缩比的增大所保留的信息也就越少，由压缩后的比特流恢复出的语音质量就越低。这往往使得重建的语音质量不能令人满意。 2 、当编码速率较低时，为了获得较好的重建语音质量，通常需要以降低两个方面的性能为代价来达到目的：第一是增加编码算法的复杂度包括运算量及运算过程中的数据存储量，许多能提供高质量语音的低速率编码方法都具有庞大的运算复杂度，给实际应用带来了困难。第二是增大语音编码器的编码延时，在数字无线通信中的通信时延是一个非常重要的参数，这将苛刻限制了编码的时延。 3 、对于低速率编码方法，通常是将语音信号的特征或模型参数提取出来进编码传送，数码率越低每个参数所代表的信息量就越多，传输过程中参数发生错误的可能性就越大，当传输过程中少量参数发生错误时，对建语音的破坏作用可能就天津大学硕士学位论文第一章绪论越大。因此这样的语音编码器对信道差错较为敏感，在信道条件恶劣的系统中会使重建语音质量急剧恶化。所以提高语音编码参数的鲁棒性( r o b u s t n e s s ) 成为一个重大的问题。因此，低速率语音编码的主要研究是针对上述问题，在利用语音信号冗余度和人耳感知特性的基础上兼顾语音质量、运算复杂度、编码的时延及鲁棒性的同时尽可能降低编码速率，从而找出适合实际需要的具体的最佳编码。 1 3 本文的安排论文首先对基于m b e 语音编码模型的关键算法原理进行了详细的介绍，之后将m b e 语音编码算法从实现的角度加以详细的分析。本文的工作包括： 1 、本文将基音平滑算法做了改进，既降低了语音分析的时延，又提高了基音估计的准确性，为语音合成打下良好基础。因为基音的提取算法对整个的编码系统的影响很大，基音估计的准确性十分重要。 2 、应用高级语言c 语言实现算法，并用m a t l a b 作了关键部分的仿真，结果证明上述算法改进的正确和有效性。 3 、介绍了实现语音编码算法的实时系统的设计，结合数传电台同时传送语音的要求和为将来数传电台传输图像做准备，选择t i 公司的t m s 3 2 0 c 6 4 1 6 d s p 芯片作为系统的核心。本文的安排如下：第一章绪论，讲述了课题的研究和应用背景。第二章语音分析和多带激励语音编码模型，介绍了语音的主要特点和分析方法，详细介绍了多带激励语音编码模型参数的分析技术。第三章参数编码，介绍了多带激威模型参数的编码方法。第四章语音合成，主要介绍了多带激励模型解码端语音的合成技术。第五章多带激励声码器的实时系统，介绍了该系统的软硬件设计。第六章仿真结果分析和进一步工作，给出了低速率语音编码算法的仿真结果和进一步的工作。天津大学碗士学位论文第二章语音分析和多带激励语音编码模型第二章语音分析和多带激励语音编码模型自从1 9 3 9 年美国的h o m e rd u d l e y 发明声码器以柬语音处理开始了参数编码或模型编码的研究，它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年代s a t e ， i t k u r a t a l ，s c h r o e d e r 等人研究出实用的共振峰卢码器，最早把线性预测技术应用到语音分析和台成。这些早期的声码器都是基于对模拟语音信号的描述而没有涉及到数字处理方法。 p c m 可以看作是数字编码技术的开端。此后，人们在对语音的量化过程中利用相邻采样点之间的相关性提出了差分脉冲编码调制( d p c n ) ，调制( m ) 和自适应脉码调制( a d p c m ) 等波形编码方法。 1 9 8 0 年之后改进了硬件技术，把a d 和d a 变换从实际压缩编码的操作中分开了，先将语音信号变为8 k b p s p c m 信号，然后再通过语音编码算法转换成较低比特率的编码。在参量编码器中，最早具有影响力的是基于线性预测的声码器，1 9 9 2 年以前语音编码的算法人都基于线性预测，使用合成分析的方法，在4 8 1 6 k b p s 之间的编码比特率达到了很好的质量。之后参量编码器在保证语音质量的前提下，进一步向降低编码速率的力向发展，是语音编码研究的焦点，出现了更多的参数编码器，例如多带撤励编码器，正弦变换编码器，波形内插编码器等等。在今后的发展中语音编码研究将会在可变速率的语音编码方面加强。 2 1 语音信号特点的简要分析语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性。在时问域中，语音信号可以直接用它的时间波形表示出来。取一段语音信号的波形，从语音信号的时域波形可以看到语音信号具有很强的时变性，在一些段落里面有类似于准周期的特性，另一些段落里而则具有类似于噪声的特性。这是因为根据发声的机理，当声门处的气流冲击声带产生振动，声带将周期性地开启和闭合，就产生一个准周期性脉冲序列的空气，流经过卢道后形成浊音，这一段的语音具有周期性；如果气流通过声门时声带完全舒展而不振动，则气流通过声道形成波形和噪声类似的摩擦音、爆破音或清音，可以用振幅和周期性来观察不道形成波形和噪声类似的摩擦音、爆破音或清音，可以用振幅和周期性来观察不天津大学硕士学位论文第二章语音分析和多带激励语音编码模型第二章语音分析和多带激励语音编码模型自从1 9 3 9 年美国的h o m e rd u d l e y 发明声码器以来，语音处理开始了参数编码或模型编码的研究，它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年代s a t o ， i t k u r a t a l ，s c h r o e d e r 等人研究出实用的共振峰声码器，最早把线性预测技术应用到语音分析和合成。这些早期的声码器都是基于对模拟语音信号的描述而没有涉及到数字处理方法。 p c m 可以看作是数字编码技术的开端。此后，人们在对语音的量化过程中利用相邻采样点之问的相关性提出了差分脉冲编码调制( d p c m ) ，a 调制( a m ) 和自适应脉码调制( a d p c m ) 等波形编码方法。 1 9 8 0 年之后改进了硬件技术，把a d 和d a 变换从实际压缩编码的操作中分开了，先将语音信号变为8 k b p s p c m 信号，然后再通过语音编码算法转换成较低比特率的编码。在参量编码器中，最早具有影响力的是基于线性预测的声码器，1 9 9 2 年以前语音编码的算法大都基于线性预测，使用合成分析的方法，在4 8 1 6 k b p s 之间的编码比特率达到了很好的质量。之后参量编码器在保证语音质量的前提下，进一步向降低编码速率的方向发展，是语音编码研究的焦点，出现了更多的参数编码器，例如多带激励编码器，正弦变换编码器，波形内插编码器等等。在今后的发展中语音编码研究将会在可变速率的语音编码方面加强。 2 1 语音信号特点的简要分析语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性。在时间域中，语音信号可以直接用它的时间波形表示出来。取一段语音信号的波形，从语音信号的时域波形可以看到语音信号具有很强的时变性，在一些段落里面有类似于准周期的特性，另。一些段落里面则具有类似于噪声的特性。这是因为根据发声的机理，当声门处的气流冲击声带产生振动，声带将周期性地开启和闭合，就产生一个准周期性脉冲序列的空气，流经过声道后形成浊音，这一段的语音具有周期性；如果气流通过声门时声带完全舒展而不振动，则气流通过声道形成波形和噪声类似的摩擦音、爆破音或清音，可以用振幅和周期性来观察不天津大学硕士学位论文第二章语音分析和多带激励语音编码模型同性质的语音。语音信号的特性是不断地在变化，但是变化很慢，在一短段时间内( 2 0 2 0 0 m s ) 可以近似的认为语音特征基本不变，并且相邻段的语音波形有时会有很强的相关性。如图2 - 1 所示。语音信号是短时平稳的信号，一般认为是在l o 3 0 m s 内语音信号的特性基本上是不变的，因此可以对语音进行短时傅立叶交换进行频谱特征的分析。图 2 - 2 给出语音“开”的傅立叶变化，从频谱图可以看到“开”浊音音素的基音频率和谐波频率。在图中，从0 2 5 1 7 5 k h z 约有5 个峰点，基音频率约为3 0 0 h z 。而从语音信号“开”的时域波形中如图2 - 3 所示，o l o m s 约有3 个周期，由此可以估算出周期约为3 0 0 h z 。这两种结果是一致的。此外，可以看到浊音的频谱图中有很明显的凸起点，这说明元音谱有明显的共振峰特性。图2 一l 一段语音信号的时域波形图2 2 语音“开”的信号频谱天津大学硕士学位论文第二章语音分析和多带激励语音编码模型图2 3 语音信号“开”的时域波形语音的时域分析和频域分析是语音分析是语音分析的重要方法，但是很显然这两种方法单独分析都有些不足，时域分析对语音信号的频率特性没有直观的了解，而频域分析的特征中又没有语音信号随时闻的变化关系。于是就产生了语音的时频分析方法，把和时序相关的傅立叶分析的图形称为语谱图。语谱图是一种三维频谱图，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任何一个给定的频率成分在给定时刻的强弱用相应的灰度或色调的浓淡来表示。语谱图同时显示了大量与语音特性相关的信息，综合了时域波性和频谱图的特点，给出了语音频谱随时间的变化。利用语谱图我们可以观察到语音的许多参数，如共振峰、基音频率、清浊音和噪声能量在频域中的分布等。语谱图上有不同的条纹称为声纹，不同的讲话者语谱图的声纹是不同的。语谱图中的声纹包括有横杠，乱纹和竖直条等，横杠是与时间轴平行的几条带纹，它们对应于短时谱中的几个突出的点，也就是共振峰。在语谱图中有无横杠出现是判断浊音是否存在的重要标志，竖直条是语谱图中出现的一条窄的深色条，相当于基音的标志。清音从语谱图上看表现为乱纹，乱纹的深浅和上下限反映了噪声能量在频域中的分布。一个语音信号的语谱图如图2 - 4 所示。天津大学硕士学位论文第二章语音分析和多带激励语音编码模型图2 4m a t l a b 内部的一个语音序列的语谱图 2 2 线性预测声码器的不足传统的l p c 声码器合成的语音自然度较差，合成语音的机械声很严重，而且鲁棒性较差，在背景噪声较大的环境中，合成语音质量随着编码速率的下降而快速降低，这主要是因为l p c 声码器将短时语音简单的分成清音和浊音。根据基音周期和清浊音的标志来决定要采用的激励信号源：在浊音段，激励信号采用具有该浊音段基音周期的周期脉冲序列：在清音段，激励信号采用白噪声序列，从而得到合成语音信号。l p c 的语音生成模型很简单。如图2 - 5 所示：从图2 - 5 可以看到，l p c 声码器的语音生成模型将语音分为清音和浊音两种类型，声道滤波器用全极点模型来近似，分别用两种激励模型来激励声道滤波器。而语音信号实际上不能只分为清音和浊音，在很多发音的过渡阶段或者在浊音混入噪声的情况下可以看作是两者相混合的。在上面的模型中如果清音和浊音判决失误，就会造成语音质量的明显下降；即使没有错误，简单的二元激励还是有些粗糙，会造成语音的自然度不高。在信噪比较高时，传统的l p c 声码器容易受到噪声的影响，语音健壮性能不高。并且采用平均幅度函数法( a m d f ) 计算基音周期，因此精度不高。另外在估计谱包络和激励参数的时候，两者是分开的，并且二者相互影响，造成了参数估计的不准确，从而导致了合成语音和原始语音的很大的差别，影响了合成语音的音质。天津大学硕士学位论文第二章语音分析和多带激励语音编码模型 2 3 多带激励的模型图2 - 5l p c 语音生成模型美国m i t 大学林肯实验室1 9 8 8 年提出的多带激励( m u l t i b a n de x c i t e d ) 【l 】语音编码模型，它不仅在2 4 4 8 k b p s 较低速率一k 能合成出音质比传统的声码器好得多的语音，而且具有较好的自然度和容忍环境噪声的能力。在m b e 基础上发展起来了i m b e 等改进编码方案，但是核心算法没有太多的改变。m b e 属于正弦模型的一种。j s l i m 提出的多带激励( m b e ) 语音模型是从频域角度来描述激励信号的，它将一帧语音的频谱按基音频率分成多个谐波频带，在每个频带上进行分析，从而更准确地表达了语音特征信息，其结果在很大范围内改善了语音质量，而算法的复杂度并没有明显增加。它不仅在低速率上能合成出音质比传统声码器好得多的语音，而且具有良好的自然度和容忍环境噪声的能力。是一种既满足传输要求又具有较高通话质量的较好的语音压缩算法，是目前较为理想的低速率语音编码方案。线性预测编码( l p c ) 中将语音信号的激励简单的描述为二元激励，而实际的语音信号并不是单纯的周期信号或噪声信号，而是两部分的混合。这是这种编码方案合成语音信号自然度较差的主要原因。多带激励和传统的线性预测最主要的区别就是对每一帧的语音用一个随频率变化的清浊判决器取代了简单的清浊开关；它要求先将每一帧语音信号的频谱根据基音谐波频率分成若干子带，然后对每个子带信号进行分析。根据子带是由周期能量组成还是由噪声能量组成，判断出是浊音( v ) 还是清音( u ) 。然后针对v u ，采用不同的激励信号合成语音，最后将各带信号相加形成合成语音。多带激励比l p c 单带激励合成语音自然度有明显的提高，抗噪声能力也增强了。此外，多带激励是通过合成谱和原始谱的均方误差最小来确定谱包络参数和激励参数的。天津大学硕士学位论文第二章语音分析和多带激励语音编码模型 2 3 1m b e 的语音分析语音信号的分析是语音信号处理的前提和基础，只有获得可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音编码、语音合成和语音识别等处理。而且语音合成质量的好坏和语音识别率的高低，也都取决于语音信号的参数分析的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。模型分析法是指依据语音信号产生的数学模型，来分析和提取表征这些模型的特征参数。贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体来看其特性和参数是随时问而变化的，所以它是一个非平稳过程，不能用处理平稳信号的数字信号处理技术对其进行分析和处理。但是语音参数的变化相对于语音的频率来说是比较缓慢的，所以一方面语音信号有时变性，另一方面在一个短的时间范围内，其特性基本保持不变，可以看作是一个准稳态的过程，即语音信号具有短时平稳特性。任何的语音信号的分析和处理都必须建立在短时平稳的基础上。将语音信号分成一段一段来分析特征参数，每一段称为一帧，一帧的长度一般为 1 0 3 0 m s 。因此不论分析怎样的参数以及采取什么样的分析方法，在语音信号提取参数之前，有一些共同的短时分析必须提前进行，如语音信号的数字化，分帧等等。设语音信号的采样信号为s ( n ) ，语音信号的短时分析和分帧是通过窗函数 w ( n ) 选取一段语音实现的，加窗的语音信号为s 。( ”) ，s w ( n ) 的傅立叶变换为 & ( w ) j ：( ”) = 5 ( ) w ( ”) ( 2 1 ) 设合成信号的傅立叶变换为& ( w ) ，是激励谱瓦( w ) 和包络谱h 。( w ) 的乘积 s 。( w ) = 乩( ”- e ( w ) ( 2 - 2 ) 不同的语音产生模型，包络谱和激励谱的表示方法也不同。激励谱的表示方法是 m b e 模型区别于其它模型的特色之一。m b e 模型中，激励谱是周期谱和噪声谱的混合。m b e 模型是通过使合成谱和原始谱的均方误差最小来确定谱包络参数和激励参数的。重建误差函数谱和原始语音谱的误差函数为： s = 去啦c 卅刮卜c z - s ，天津大学硕士学位论文第二章语音分析和多带激励语音编码模型或者是： s = 2 - 托i s ( c o ) - “，卜。， m b e 将每一帧一n ，n 的整个频段，以基频为宽度划分为等间隔的p 个频带( p = 【2 ，r w o 】) 其中【】代表取整。每个频带的频率下限和上限依次是a ，和b ，( m 5 0 p 一1 ) ；每一频带内进行清浊音判决，浊音带的激励谱用周期谱来表示，清音带的激励谱用随机噪声谱来表示，并且假设合成谱包络在每个基音谐波的范围内为定值。设第m 个带的谱包络为定值以，则第m 个带的误差为：或者是矗= 去e 口& ( ) l 一1 4 l i e ( ) 1 2 d ( 2 5 ) 靠= 瓦1 i s 。) 一以玩( ) 1 2 d ( 2 6 ) 频率段i - a m ，b m 的基音频率为基音频率的第m 个谐波，宽度为基音频率，由( 2 5 ) 式可以解出气达到最小的a 。，此最佳值可以由对i 以i 的偏导值为0 求得： = 黼，或者由对如的幅值和相位分别求偏导，得到以的值是 r & ( 甜) e ( c a ) d c a 一 = 二】三一 ( 2 - 8 ) 一a 瓯 ( 2 - 7 ) 或( 2 - 8 ) 式中的激励谱对于浊音段用周期谱代入，对于清音段用白噪声谱代入，解出的a ，可以使得误差函数最小，此时的a 。称为最佳离散谱的包络幅值。估计基音频率时，假设语音为浊音，则整个频带的谱误差为每个谐波段的误差之和，天津大学硕士学位论文第二章语音分析和多带激励语音编码模型 = ( 血) ( 2 9 ) 气。是将a ，代入后的计算结果，为基音周期p 的函数，即求出使。最小的p 值，这个算法称为基音估计的频域计算方法。采用频域基音估计算法可以在任意的分辨率下估计基音周期吲，但是运算量将很大。为解决该问题可以先从频域关系式中推导出在时域中的估计方法时域自相关函数，利用时域的方法求出基音周期的粗估值。在进行时域粗估的时候，时域粗估窗要满足归一化的条件： w 2 ( ) = 1 ( 2 一l o ) 经过一系列的数学的推导之后可以得到无偏误差的计算公式“：其中： = j 2 ( 疗) w 2 ( ”) 一p - 妒( 舻) t = - o 耋w 4 ( 1 - p”，嵯s 2 ljw 2 2 ”) | l ( 聆) w 2 ( ”) j = l ( 2 1 1 ) ( 舻) = s ( n ) w 2 ( ) s ( h k p ) w 2 ( n 一舻) ( 2 1 2 ) 对于每一帧语音信号，运用( 2 - 1 1 ) ，对p 从2 0 到1 4 7 的所有整数进行计算，可以得到无偏误差随p 变化的曲线，使最小的p 值就是该帧语音信号的基音周期粗估值。基音周期的粗估值还需要经过基音平滑，使相邻的语音帧间的周期保持平滑，剔除粗估错误点；再用频域估计的方法在粗估值的附近进行细搜索，得到最终估计值。如果语音采样的周期为8 k h z ，精度达到0 2 5 个样点的间隔就可以了，一般的基音估计的分辨率达到0 2 5 个样点以上。清浊音判决取决于周期谱对语音谱的匹配程度，确定了基音周期p 以及各次谐波谱幅度以之后，可以根据各谐波频带内归一化误差能量对v u 判决。第m 分带的归一化误差能量定义为：，= _ 二堂l 一 ( 2 1 3 ) h 去肚( ) 1 2 d 珊天津大学硕士学位论文第二章语音分析和多带激励语音编码模型若己小于某个域值，说明谱的拟合误差小，该带应该判为浊音带；反之高于门限，认为语音谱更接近噪声谱，则判为清音带。如果进一步降低编码速率，而没有足够的编码位给每一个谐波带的v u 信息，那么可以将相邻的几个谐波带合成一个带。为了选择更加准确的门限值，一般根据语音能量的变化以及谐波所处的频率段，要对门限进行自适应调整。 2 3 2m b e 的语音合成由多带激励模型参数得到合成语音的方法大体分为两类，即频域合成法与时域合成法。频域合成法首先利用收到的参数构成重建语音谱，浊音带激励谱为周期谱，清音带激励谱为噪声谱，然后利用傅立叶反变换得到时域序列。当帧长很长的时候，频域合成法会造成基音频率在帧问不连续，使合成后的语音不自然。在时域合成法中，浊音成分与清音成分是分开合成的，然后两者相加得到合成语音。浊音信号可以由一组正弦波的和产生。正弦波的频率为基音的谐波频率，幅度为谱包络的幅度；清音的合成是将白噪声通过带通滤波器产生的。综合考虑时域合成和频域合成的利弊，m b e 的合成是浊音在时域合成法和清音在频域合成法的混合。这是为了让基音频率等参数在语音帧间的平滑过渡，浊音带采用时域合成法，在频域比较容易实现带通滤波，清音带采用频域合成法。浊音带语音由一组正弦波相加合成 s a n ) ：以( ”) c o s ( 巩( ) ) ( 2 1 4 ) 幅度函数a 。( n ) 在帧间进行插值。如果第m 次谐波对的频带是浊音带，合成语音的模值为a 。= x m ，若第m 次谐波对应的频带是清音带，以= o ，然后进行插值计算： 4 ( n ，o ) = 1 n r - t 以( 一1 ) + 号以( 。) 。n n ( 2 - 1 5 ) 其中a 。( 一1 ) 表示前一帧的参数，a 。( o ) 表示当前帧的参数，n 表示帧长。相位函数靠( ”) ，由初始相位丸以及插值角频率( ，0 ) 计算得到： n - 1 以( ”) = ( ，o ) + 九 ( 2 1 6 ) i = 0 天津大学硕士学位论文第二章语音分析和多带激励语音编码模型九应该选择本帧起始点相位的主值，而。( ，o ) 是本帧与上一帧的第1 1 1 次谐波频率经插值计算得到的：脚，( ，o ) = m m o ( 一1 ) 乇 + m o o ( 0 ) 古( 2 1 7 ) vv 这是一种简单的基音插值，当两帧语音的基音频率相差不大时，效果比较好，当两帧的基音频率变换较大时，采用上述方法，合成语音会有不自然的感觉，这时不再进行基音的频率插值，而是进行两次合成。首先先对本帧的浊音谐波段进行合成，这时认为下一帧的谐波段为清音，然后对下一帧的谐波段进行合成，认为本帧谐波段为清音，本帧和下一帧的合成语音有重叠的部分。清音段语音的合成用频域方法，将加窗的噪声信号进行傅立叶变换，其中对英语浊音段的频段幅度置为零。对应清音段的平均幅度由l a 。| 得到，然后进行傅立叶反变换得到对应于清音段的合成语音。最后将浊音和清音合成语音叠加在一起，就得到了m b e 的合成语音信号。可以由多带激励的分析合成方法画出m b e 编解码原理框图1 1 ”，图2 - 6 ： ( a ) m b e 编码器框图基音周期清浊判决位谐波幅度天津大学硕士学位论文第二章语音分析和多带激励语音编码模型基音周期寄i 虫判决位谐波幅度 ( b ) 解码器框图图2 - 6m b e 编解码原理图以上讨论了m b e 的模型，将主要算法实现还需要考虑很多的问题。如语音信号离散化，基音平滑算法，滤波算法，参数量化编码等。下面的论文将分别来介绍m b e 语音编解码的详细算法。多带激励由于在低速率上保持了语音的可懂度和自然度，并且具有较低的计算复杂度，在很多方面都可以应用。例如峰窝电话，卫星通信，数字移动无线电，保密电话，多媒体应用。 2 4 多带激励的参数提取和合成语音分析的目的是提取m b e 模型的参数。多带激励模型中的参数包括：基音频率、谱包络信息和各个带的清浊音信息。谱包络信息包括对应于各基音谐波带的谱幅度信息和相位信息。因为人而对语音的相位变化不敏感，当编码速率很低时，语音分析只产生谱幅度的信息，而没有相位信息。输入的模拟语音，经过 8 k h z 采样得到离散的语音信号，模数转换用1 6 位的线性p c m 编码，输出语音信号序列再进行下一步的处理。语音信号分析前首先要经过高通滤波器，目的为了抗工频( 5 0 6 0 h z ) 干扰，一般采用简单的一阶高通滤波器，传递函数为( 2 - 1 8 ) 频响曲线如图2 7 ：酢) = 击刍 ( 2 - 1 8 ) 基于语音分析的短时平稳特性m b e 将输入的语音每2 5 毫秒分为一帧，对于8 k h z 的采样，相当于2 0 0 个样点每帧，每秒钟4 0 帧，采样值作为多带激励算法的输入。天津大学硕士学位论文第二章语音分析和多带激励语音编码模型 2 7 高通滤波器频响曲线( 8 k h z 采样率) 2 4 1 基音周期的时域粗估计由于人说话时的声带振动，语音的波形有明显的准周期特性，其周期称为基音周期，在一帧语音信号中可以近似认为基音周期不变。基音周期是语音信号最重要的参数之一，描述了语音激励源的一个重要特征。因为汉语是一种有调的语音，基音的变化称为声调，它携带着具有辨意作用的信息，有区别意义的功能，所以是一个非常重要的问题。男性讲话者的基音频率介于6 0 2 0 0 h z 之间，女性和小孩的基音频率介于2 0 0 4 5 0 之间，也就是说基音周期介于2 1 6 m s 之间，对于8 k h z 的采样周期采样点的范围在1 8 1 4 0 点之间。为了减少运算量，多带激励的基音周期的估计分为两个部分，先在时域进行基音粗估，然后在频域进行基音的细搜索。基音周期的估计一直是语音分析的重要课题之一。基音周期的提取方法有很多，如并行时域处理技术，小波变换法，倒谱法，自相关函数法，平均幅度差函数法等。g r i f f i n 提出了从语音信号的短时频谱匹配来得到基音周期估计函数，与高斯随机噪声假设下的最大似然估计得到的结论相似。g r i f f i n 更迸一步推导出了提取基音周期的无偏估计公式( 2 - 1 1 ) 作为基音周期的度量函数，成为误差函数，这种算法对去除语音信号中的高斯噪声有很好的效果。基音时域粗估的另一个重要的方面是基音检测的后处理基音周期的平滑算法。每一种基音周期的检测算法都有可能产生基音周期检测错误，基音周期的判决的错误对合成语音用各种平滑算法来消除个别大误差的错误，如中值平滑，线性平滑和动态规划平滑算法等，目前多用动态规划的基音平滑算法，其代天津大学硕士学位论文第二章语音分析和多带激励语音编码模型价函数的选取综合考虑了误差函数和帧间的基音平滑性。下面分步骤介绍基音周期的粗估方法。 1 、低通滤波：基音粗估首先要进行低通滤波。低通滤波的目的是去除高频信号对基音周期提取的影响，低通滤波的参数

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）多带激励（mbe）低速率语音编码技术的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档