(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf_第1页
(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf_第2页
(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf_第3页
(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf_第4页
(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的低速率语音编码研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳航空航天大学硕士学位论文 摘要 近年来,随着信息化社会和通信技术的快速发展,人们对通信需求的不断增加,在 各种通信系统中,频率资源变得越来越宝贵。目前,话音通信仍然为主要的通信业务, 因此语音压缩技术也一直是人们的研究热点。人们迫切地要求在低速率上获得高质量的 合成语音。以上这些情况对低速率语音编码提出了更高的要求。 在众多低速率编码方法中,混合激励线性预测( m e l p - m i x e de x c i t a t i o nl i n e a r p r e d i c t i o n ) 声码器具有低码率、低时延、低复杂度等优点。m e l p 算法是非常优秀的低 速率语音编码方法,它是在原有的l p c 编码的基础上,引入多带混合激励、非周期脉冲、 残差谐波处理技术、自适应谱增强技术以及脉冲整形滤波技术。采用了一种新的更为符 合人发音机制的语音生成模型来合成语音,使合成语音与原始语音的匹配度更高,从而 较好的降低了语音编码的速率。 本论文对m e l p 的语音编解码算法的原理作了比较深入的研究,对基音周期的提取 做了相应的改进,并作了仿真分析,最后用m a t l a b 软件实现了该算法的功能,同时编 制和调试了m e l p 算法的c 语言程序,以美国德州仪器t i 公司的t m s 3 2 0 v c 5 5 0 9 为平台, 使用t l v 3 2 0 a i c 2 3 对语音信号进行采集;通过m c b s p 将采集的数字语音信号传送给 t m s 3 2 0 v c 5 5 0 9 ;在t m s 3 2 0 v c 5 5 0 9 上实现语音m e l p 算法,并给出算法在d s p 上的仿 真结果。并对算法的实时实现出现的运算量大的问题,提出了算法实现的代码优化方法。 关键词:语音编码;混合激励;线性预测;声码器; 沈阳航空航天大学硕士学位论文 a b s t r a c t i nr e c e n t y e a r s ,w i t ht h ei n f o r m a t i o n s o c i e t ya n dc o m m u n i c a t i o nt e c h n o l o g yr a p i d d e v e l o p m e n t ,w i t ht h ei n c r e a s er e q u i r e m e n to fc o m m u n i c a t i o n ,t h ec o m m u n i c a t i o nr e s o u r c e s b e c o m em o r ea n dm o r e r a r i t y n o ws p e e c hc o m m u n i c a t i o n i s s t i l l a n i m p o r t a n t o p e r a t i o n ,t h u s ,s p e e c hc o m p r e s s i o na p p e a l sm o r ep e o p l et or e g a r do ni tf o ral o n gt i m e h i g h q u a l i t ys y n t h e t i c a ls p e e c ho nl o wb i tr a t ei sa s p i r i n g l h e s ec o n d i t i o n so fl o wr a t es p e e c h c o d i n gp u tf o r w a r dh i g h e rr e q u i r e m e n t s a m o n g t h em a n gl o w - r a t ec o d i n gm e t h o d ,m i x e de x c i a t i o nl i n e a r p r e d i c t i o nc o d e cw i t h l o wb i tr a t e ,l o wd e l a y ,l o wc o m p l e x i t y ,e t c s om e l pa l g o r i t h mi so n eo ft h ev e r yb e s tl o w r a t es p e e c hc o d i n g i ti se n c o d e di nt h eo r i g i n a lo f l p c ,t h ei n t r o d u c t i o no fm u l t i - b a n dm i x e d e x c i t a t i o n ,a p e r i o d i cp u l s e s ,r e s i d u a lh a r m o n i c p r o c e s s i n g ,a d a p t i v es p e c t r a le n h a n c e m e n t t e c h n i q u e s ,a n dp u l s es h a p i n gf i l t e r i n g a d o p t e dan e wm e c h a n i s mi sm o r ec o n s i s t e n tw i t h h u m a nv o i c ep r o n u n c i a t i o nm o d e lt og e n e r a t es y n t h e t i cs p e e c h ,s y n t h e t i cs p e e c ht om a t c ht h e o r i g i n a lv o i c eo ft h eh i g hd e g r e eo fo r d e rt ob e t t e ra c h i e v et h el o wb i tr a t es p e e c hc o d i n g i nt h i sp a p e r , t h et h e s i sm a i n l ym o r ei nd e p t hs t u d yt h et h e o r yo fm e l p v o i c ec o d i n g a l g o r i t h m s ,a n dt h ee x t r a c t i o no ft h ep i t c hi m p r o v e m e n tm a d e ,b e s i d e s t h a t , s i m u l a r t i o n a n a l y s i so fa l g o r i t h mi sp r e s e n t e db yu s i n gm a t l a b ,t h i st h e s i sa l s ew r o t et h ec d r o g r a mf o r t h em e l p a l g o r i t h m ,s ob a s e do nt h ecp r o g r a m ,t h i st h e s i si m p l e m e n t st h em e l p a l g o r i t h m o nt h et m s 3 2 0 v c 5 5 0 9d s po ft e x a si n s t r u m e n t st ic o m p a n y , m a k eu s eo ft l v 3 2 0 a t 2 3 p i c kt h ev o i c es i g n a l ,a n db ym e a n so fm c b s pw i l lb ep i c kv o i c es i g n a lt h a ti st r a n s m i t t e dt o t h et m s 3 2 0 v c 5 5 0 9 ,a tl a s t ,i m p l e m e n t e do nt h et m s 3 2 0 v c 5 5 0 9v o i c em e l p a l g o r i t h m a n dt h er e s u l t so ft h es i m u l a t i o n r e a l - t i m ei m p l e m e n t a t i o no fa l g o r i t h mf o r c o m p u t e rl a r g e p r o b l e m sa r i s e ,m ec o d ep r o p o s e da l g o r i t h mo p t i m i z a t i o nm e t h o d k e y w o r d s :s p e e c hc o d i n g ;m i x e de x c i t a t i o n ;l i n e a rp r e d i c t i o n ;v r o c o d e r : 沈阳航空航天大学硕士学位论文 1 1 课题来源,选题意义 第1 章绪论 随着数字时代的普及和信息的高速发展,应用最早和最广泛的语音编码是p c m ( 脉 冲编码调制) n 1 。国际电报电话咨询委员会( c c i t t ) 于1 9 7 2 年制定了g 7 儿建议规定 了a 律和律这两种p c m 编码,都是非线性量化的p c m 编码方法。北美、日本使用律 压扩方法,其他国家和地区使用a 律压扩方法。编码器输出的速率都是6 4 k b s 。而且 p c m 对于促进通信的数字化、推动通信和信息技术的迅速发展曾起到重要的作用。但是, 由于p c m 的编码速率过高,占用信道的带宽过大,不再适应于通信和信息的更快发展。 为了压缩编码速率,减少传输占用的带宽,人们一直致力于研究开发新的语音编码技术。 这种强烈的客观需求是推动语音编码技术迅速发展的巨大动力。最近几年来,随着数 字时代的飞快发展,对于有限的频率资源,越来越显得宝贵。这样摆在我们面前的挑战 就是,如何在有限的资源条件下,更进一步压缩传输数字语音信号的带宽,从而来达到, 降低传输速率的目的,一直是我们研究者的追求目标,这其中以研究的最大热点是要以 研究高质量的低速率编码技术。 1 2 低速率语音编码技术的发展状况 语音编码是语音信号处理技术的一个非常重要的组成部分,按照语音信号进行压缩 处理,然后进行传输或存储,所达到的数据速率( 即比特率) 进行的编码分类方法。可 以大致将语音编码分为以下3 种:参数的编码、波形的编码、混合的编码。分别对应为 低速率语音编码( 编码速率在4 8 k b s 以下) 皿3 ,高速率语音编码( 编码速率在3 2 k b s 以上) ,中速率语音编码( 编码速率在4 8 - 3 2 k b s 之间) 。 2 0 世纪3 0 年代末期,随着社会的发展,尤其要提高军事保密通信的需求,贝尔电 话实验室的h o m e rd u d l e y 提出脉冲编码调制原理以及声码器的概念。并实现了在低带 宽的电话电报电缆上,传输话音信号的通道声码器。尤其急需要完善信号带宽,解决传 输干扰的问题,于是推动加快数字通信网的发展,当然也提高了低速率语音编码的迅速 发展。 沈阳航空航天大学硕士学位论文 进入2 0 世纪8 0 年代,由于有线技术光纤传输技术的发展,很好的解决了有线信道 通信容量的问题。但与此同时,人们对无线信道,比如,无线信道的通信,价格很高的 卫星信道,保密通信的军事信道的需求不断增加。特别是对智能信息网的提出,各种与 语音应用服务相关的新业务不断涌现,从而要求对语音信号的数据能被灵活处理。相关 的低速率语音编码技术得到飞快的发展。比如,多媒体技术,移动通信技术,智能网技 术,卫星通信技术,保密通信等。 近年来,低速率语音编码技术在研究思路上有了很大的进展。这些技术的发展基本 上都是沿着4 个方向即,码激励线性预测编码( c e l p ) 模型4 。,正弦波激励模型,插值 编码模型,混合激励线性预测编码( i v e l p ) 模型。通常的低速率编码都是在以上4 个模 型基础上进行的改动,然后加上一些特殊的相关技术,比如,语音信号激励的划分,参 数的联合矢量量化,残差信号处理,谱增强技术等。 1 ) 码激励线性预测编码( c e l p ) 瞄3 原理是:它用线性预测技术提取声道参数,用 一个包括很多典型的激励矢量的码书作为激励信号。经过开环的方法和闭环的方法来确 定基音预测器的参数,通过多次的搜索,从而得到的两个最佳的码矢量,最后在这得到 的两个码矢量的基础上,再乘以它们各自的最佳增益,最后再相加起来,这样就获得了 c e l p 的激励信号。 码激励线性预测编码( c e l p ) 的优点是:对合成的语音来说,可以得到很高的质量, 而且抗噪声也很优良,由于这样一些优点,从而在低速率语音编码上得到了广泛应用。 但其缺点是:运算复杂度很大尤其是码矢量的搜索,另外对特定条件下使用的的速率, 要想获得其好的码矢量,需要进行单独的训练。当编码速率在4 k b s 以下时,码激励c e l p 算法得到的合成语音质量效果一般。 2 ) 正弦波激励模型是:它针对的是浊音信号来说的,其输入的浊音信号是由一组 幅度,相位,频率,这些量都随时间变化的正弦波来相加产生的,并且这些正弦波的幅 度,相位,频率,在相邻的语音帧间要保持连续性。是只对基音频率和谐波幅度进行的 编码。而谐波相位则要根据基音频率在译码时产生。其中主要有两种类型:正弦变换编 码( s t c ) 型和多带激励( m b e ) 型。 2 沈阳航空航天大学硕士学位论文 正弦变换编码( s t c ) 模型的优点是:在2 4 k b s 以上的速率可以产生高质量的合 成语音。其不足是:模型产生的参数太多,最后其编码的速率也不低,想进一步降低其 速率很难。 多带激励( m b e ) 模型哺i7 填优点是:在2 4 k b s 4 8 k b s 速率上可以获得合成质量 比传统声码器好的语音,具有较好的自然度,容忍抗噪声的性能。但其缺点是:不能保 证其合成语音基音周期有好的平滑过渡,特别是当帧长比较长时,会产生基音周期的跳 变,会使合成语音变得不太自然。 3 ) 插值编码模型旧3 :主要包含两类,一类为原型波形插值( p w i ) 方法,另一类为 时域插值( t f i ) 方法。 原型波形插值( p w i ) 方法:该算法主要是用于对浊音段的处理,而清音段用其它 方法来处理,比如码激励c e l p 的方法。 其优点是:可以重建原始信号的波形,但因只对浊音部分处理,因此方法比较简单。 其缺点是:采用原型波形插值( p w i ) 方法,在编码的过渡部分,会出现很大的失 真,而且不易控制。另外在合成的语音中会产生一些蜂鸣声。 时域插值( t f i ) 方法:是基于原型波形插值( p w i ) 原理的一种被称为时域插值( t f i ) 的方法,首先是经过l p c 分析,再根据浊化及基音分析单元的判决,最后将语音划分为 两种不同的编码路径。针对浊音时使用t f i 编码,针对清音时采用c e l p 的编码。 其优点是:在2 4 k b s 4 k b s 速率之间获得了比较好的效果。 其缺点是:其在编码速率和编码质量方面存在着一些矛盾。 4 ) 混合激励线性预测编码( m e l p ) 模型: 其算法原理是:建立在简单的二元线性预测编码l p c 模型之上,采用周期性的脉冲 信号来激励全极点滤波器,从而来代替语音浊音信号,对于清音信号,则用随机白噪声 来激励。 其优点是:对语音的分类更加精细,可以很好的解决二元模型中存在的对中间音不 能分类的难题,而且合成的语音的自然度比较好,减少了l p c 带来的蜂鸣声。 1 3 低速率语音编码罂的最新成果 目前低速率语音编码的最新研究成果主要有下面几点: 3 沈阳航空航天大学硕士学位论文 1 ) 综合分析同态声码器四 综合分析激励算法最早是由阿特尔( a t a l ) 等提出,并用于线性预测编码( l p c ) 声道模型以确定其激励信号。后来由美国电报电话公司( a t & t ) 的贝尔实验室和乔治亚 电气工程技术研究所推出了同态的声码器,其时变声道信息用低时对数倒谱来表征。 2 ) 2 4 k b s 的多带激励线性预测编码( m b e l p c ) 语音编码器 是由澳大利亚亚伦贡( w o l l o n g o n g ) 大学电气和计算机工程系开发出的一种以多带 激励( m b e ) 模型为基础的语音编码器。m b e l p c 语音编码器模型先将m b e 模型频谱幅 度的抽样变为固定数量的l p c 系数,然后利用线谱对( l s p ) 来量化l p c 的系数。 3 ) 美国国防部的6 0 0 b s 8 0 0 b s 语音编码器 该声码器是使用分裂矢量量化器用每帧1 8 b 、2 2 b 编码频谱参数,它通过分组编码基 音,发声和能量参数以及有选择地内插频谱参数从而达到利用帧间冗余度的目的。 4 ) 美国国际电话电信公司( i t t ) 国防通信分公司4 0 0 b s 的高质量语音编码器 该声码器是以官方标准l p c 一1 0 算法为基础,输出参数后来处理实现必要的速度压 缩,它具有抗干扰以及抗信道噪声的特性。 5 ) 加拿大i n r s 一电信公司的4 5 0 b s 声码器 该声码器使用声激励的语音模型,实现了- , o o 准确而又经济的语音频率压缩,并使 用短时间分解以实施时间的压缩。 1 4 本课题的主要工作 本论文主要对m e l p 的语音编解码算法的原理作了比较深入的研究,对基音周期的 提取做t i n 应的改进,并作了仿真分析,最后用m a t l a b 软件实现了该算法的功能,合 成的语音质量得到一定的改善。同时编制和调试了m e l p 算法的c 语言程序,以美国德 州仪器t i 公司的t m s 3 2 0 v c 5 5 0 9 为平台,使用t l v 3 2 0 a i c 2 3 对语音信号进行采集;通过 m c b s p 将采集的数字语音信号传送给t m s 3 2 0 v c 5 5 0 9 ;在t m s 3 2 0 v c 5 5 0 9 上实现语音m e l p 4 沈阳航空航天大学硕士学位论文 算法,并给出算法在d s p 上的仿真结果。并对算法的实时实现出现的运算量大的问题, 提出了算法实现的代码优化方法。 下面是本论文的主要内容: 第一章简要叙述了课题的来源以及选题的意义,详细介绍了当前低速率语音编解码 技术的发展状况,并评价了几种主要算法的优缺点,引出了本论文将要讨论的低速率混 合激励线性预测语音压缩编码算法,即m e l p 声码器的研究,接下来,对本论文的主要 研究框架作了简要的介绍。 第二章主要介绍了m e l p 声码器的一系列新的特点,并且具体的说明了每一个特点 的原理以及采用的技术。通过这些详细的说明使我们对以前的l p c 算法有了很好的理 解。除此之外,还比较具体的说明了m e l p 声码器算法在编码过程中,对各个主要知识 点未量化参数的解释和说明。而且对一些参数也做了简单的概述,比如滤波器的处理, 浊音强度的处理等。对另一些参数则做了具体的解释,比如基音周期的提取,线性预测 系数l p c ,增益等参数。 第三章详细叙述了m e l p 声码器算法在编码过程中对各种参数进行量化的方法。最 后介绍了对这些参数如何进行差错控制方式。 第四章详细介绍了m e l p 声码器解码算法的原理。对一些参数的特殊译码做了具体 的说明。最后把原算法的合成与改进的算法合成做了比对,通过测试证明改进前与改进 后没有太大的差别,但实现起来比较简单。 第五章主要介绍了在硬件d s p 上实现t m e l p 声码器算法,并对原始语音和合成的语 音的质量进行了对比,同时解决了程序向d s p 移植过程中遇到的问题,并对程序进行了 优化,使得该程序模块能够在有限的时间内在t m s 3 2 0 v c 5 5 0 9 上完成编码和解码的实现。 5 沈阳航空航天大学硕士学位论文 第2 章m e l p 声码器语音压缩编码算法 i l i e l p 语音压缩编码算法由来 混合激励线性预测( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ,m e l p ) 编码n 旷,是 美国1 9 9 7 年3 月公布的关于2 4 k b s 的语音编码的国家标准,它用来取代了1 9 8 2 年公 布的联邦旧标准f s - i o l 5 中l p c 一1 0 声码器的算法,是新的f s 一1 0 1 5 标准。这种新的算 法使合成语音的质量具有很好的清晰度和自然度,是一种很优秀的低速率语音编码的算 法。 m e l p 语音压缩编码算法是在传统的二元激励,它把激励分为浊音激励,清音激励。 对简单的l p c 语音产生模型来说它把激励语音,分为清音激励和浊音激励。清音模型的 激励信号用白噪声作为模拟,而浊音模型激励信号采用周期等于基音周期的脉冲序列。 实际上,这种分类很不准确。正因为l p c 的这些不足,做了以下改进,即m e l p 声码器 算法是在简单l p c 参数模型基础上,采用了激励的细分化,即混合激励。频带的划分法, 即多带激励的原理而产生的。因此它拥有线性预测l p c 和多带激励m b e 的优点。在实际 情况下,由于人在说话时声门在张开时,有时说话的突然低声,除了主要的声门激励外, 还可能有一些次要的激励,这些都会影响到研究的共振峰的结构。而且我们在不说话时, 以及一些情况下说话的突然停顿,这时声门要关闭,也有时关的不够很完全,也会产生 一些倒吸的噪声,这所有的都会破坏浊音时的周期性。尤其是在浊音、清音之间的过渡 区,这种现象更加的明显,这是主要由于在这些语音的过渡帧,既有周期的成分存在, 同时又有一定的非周期成分存在。 多带激励( m b e ) 算法原理,该原理是工作在频域里,而且是把每段要处理的语音信 号分成不同的频带信号,然后分别对每个子带,分别进行清浊( u v ) 音的判定,使用这 样分带的处理方法,能很好的去除噪声,改善合成语音中的嗡嗡声。经过这样的处理我 们的合成的语音,就具有很好的自然度,并且提高了容忍环境噪声的能力,在低速率语 音编码2 4 k b s 4 8 k b s 速率上,合成的语音能达到较好的自然语音质量。 2 0 世纪9 0 年代,为了更好的改进l p c 声码器的性能,降低语音的传输的速率,m c c r e e 博士和b a r n w e l l 教授提出了m e l p 声码器算法n 2 1 引。该算法把处理的语音分为清音、浊 6 沈阳航空航天大学硕士学位论文 音和抖动浊音三种状态。这三种激励分别为,清音采用白噪声来激励,采用周期的脉冲 加上白噪声来作为浊音激励信号,采用非周期的脉冲加上白噪声来作为抖动浊音。采用 这种新的语音分类模型,对于比如,过渡音,弱浊音,一些中问的语音的处理更加的准 确精细,因此可以极大的改善,合成语音的自然度,减少了激励信号中的脉冲成分,减 少了噪声成分太多,以及这些噪声所引入的合成噪声,最终使解码后合成的语音听起来 很清楚,很自然。 2 2 m b l p 声码器算法的五大特点 混合激励线性预测编码算法是以简单的二种激励线性预测编码( l p c ) 参数原理为 基础的,它新增了下面五大特点,即具体如下:1 ) 混合的脉冲和噪声激励,2 ) 采用周期 或非周期脉冲,3 ) 自适应谱增强技术,4 ) 脉冲散布滤波器,5 ) 残差谐波幅度。 2 2 1 混合的脉冲和噪声激励 与l p c 中的简单清浊音判决相比,m e l p 最最重要的特征是采用混合的脉冲和噪声 激励,它是通过一个多带的混合模型实现的。分带的思想是来源于m b e ( m u l t i - b a n d e x c i r a t i o n ) ,m b e 是一个不用预测残差的完全的参数语音编码器,工作在频域里。采 用这种分带的处理方式,从频域上来看,可以使得对激励信号的划分更加的精确,从而 合成的激励语音信号也就更加的准确。在2 4 k b p s 的m e l p 声码器算法中,具体把语音 的分带如下,将处理语音频带从0 h z 到4 k h z 分成5 个固定的子频带,分别是第一个带 从0 h z 到5 0 0 h z ,第二个带从5 0 0 h z 到1 0 0 0 h z ,第三个带从1 0 0 0 h z 到2 0 0 0 h z ,第四个 带从2 0 0 0 h z 到3 0 0 0 h z ,第五个带从3 0 0 0 h z 到4 0 0 0 h z 。采用的五个带通滤波器均为六 阶的巴特沃思带通滤波器,分带滤波器是由5 个带通滤波器相加而得到的。由于语音信 号处理知识我们知道,语音的低频部分对提取语音参数影响特大,并且也为了方便基音 周期的提取,因此要对语音的低频段的划分更加细化。对于分开的每个带来说,要在每 带的浊音帧,抖动浊音帧,分别进行清浊音( u v ) 混合比例的计算处理。最后,将计算 的结果决定了在该子带内,脉冲激励源,噪声激励源,两者在形成激励信号时的加权数 值。最后在经过分带滤波之后的脉冲激励源,噪声激励源,按上面计算的方法按加权值 来相加,从而得到整个处理语音频带的激励信号。而上面这些激励源的改进,其主要的 7 沈阳航空航天大学硕士学位论文 音和抖动浊音三种状态。这三种激励分别为,清音采用白噪声来激励,采用周期的脉冲 加上白噪声来作为浊音激励信号,采用非周期的脉冲加上白噪声来作为抖动浊音。采用 这种新的语音分类模型,对于比如,过渡音,弱浊音,一些中问的语音的处理更加的准 确精细,因此可以极大的改善,合成语音的自然度,减少了激励信号中的脉冲成分,减 少了噪声成分太多,以及这些噪声所引入的合成噪声,最终使解码后合成的语音听起来 很清楚,很自然。 2 2 m b l p 声码器算法的五大特点 混合激励线性预测编码算法是以简单的二种激励线性预测编码( l p c ) 参数原理为 基础的,它新增了下面五大特点,即具体如下:1 ) 混合的脉冲和噪声激励,2 ) 采用周期 或非周期脉冲,3 ) 自适应谱增强技术,4 ) 脉冲散布滤波器,5 ) 残差谐波幅度。 2 2 1 混合的脉冲和噪声激励 与l p c 中的简单清浊音判决相比,m e l p 最最重要的特征是采用混合的脉冲和噪声 激励,它是通过一个多带的混合模型实现的。分带的思想是来源于m b e ( m u l t i - b a n d e x c i r a t i o n ) ,m b e 是一个不用预测残差的完全的参数语音编码器,工作在频域里。采 用这种分带的处理方式,从频域上来看,可以使得对激励信号的划分更加的精确,从而 合成的激励语音信号也就更加的准确。在2 4 k b p s 的m e l p 声码器算法中,具体把语音 的分带如下,将处理语音频带从0 h z 到4 k h z 分成5 个固定的子频带,分别是第一个带 从0 h z 到5 0 0 h z ,第二个带从5 0 0 h z 到1 0 0 0 h z ,第三个带从1 0 0 0 h z 到2 0 0 0 h z ,第四个 带从2 0 0 0 h z 到3 0 0 0 h z ,第五个带从3 0 0 0 h z 到4 0 0 0 h z 。采用的五个带通滤波器均为六 阶的巴特沃思带通滤波器,分带滤波器是由5 个带通滤波器相加而得到的。由于语音信 号处理知识我们知道,语音的低频部分对提取语音参数影响特大,并且也为了方便基音 周期的提取,因此要对语音的低频段的划分更加细化。对于分开的每个带来说,要在每 带的浊音帧,抖动浊音帧,分别进行清浊音( u v ) 混合比例的计算处理。最后,将计算 的结果决定了在该子带内,脉冲激励源,噪声激励源,两者在形成激励信号时的加权数 值。最后在经过分带滤波之后的脉冲激励源,噪声激励源,按上面计算的方法按加权值 来相加,从而得到整个处理语音频带的激励信号。而上面这些激励源的改进,其主要的 7 沈阳航空航天大学硕士学位论文 目的是为了减少简单线性预测编码l p c 中,常有的一些对我们处理不方便的噪音,例如 蜂鸣声,重击声,声音音调的噪声,同时对清浊( u v ) 音判决的敏感程度也有会降低。 2 2 2 采用周期或非周期脉冲 在m e l p 声码器算法中,引入非周期脉冲处理方法是其算法的一大特点。在m e l p 算 法中使用一种非常有效的处理方法,就是采用非周期脉冲n7 | ,用一个非周期标志来表示 是否采用非周期脉冲的激励信号。非周期标志( 抖动浊音标志) 常用于清浊音( u v ) 的过 渡语音段区域,其结果是能够使合成器重现无规律的声门脉冲,而且不引入音调的噪声。 对于抖动浊音,当非周期标志a f 为1 ,说明在合成语音时要采用非周期脉冲,而不是采 用周期脉冲作为激励信号。该标志位能使解码端产生不稳定的声门脉冲,同时使过渡音 更加的自然,而不引入其他的声调。 2 2 3自适应谱增强技术 在m e l p 声码器算法中引入了自适应谱增强技术n8 ;,为的就是使通过译码器后,合 成语音的波形,原始语音波形,两者在共振区域有更好的匹配,我们知道,人开口说话 时声道形成的共振峰带宽,在一个基音周期内可能会发生很小的变化。由于简单的l p c 模型,它采用的是带有全极点的模型,虽然l p c 该模型能减小对共振峰的影响,但是, 同时也会引入量化误差等现象,从而使得l p c 合成滤波器的极点形状,与采用自然语音 的共振峰形状存在着偏差,这就导致了在共振峰之间,合成语音谱的波谷,不如原始语 音谱的波谷那样的明显,从而使合成语音听起来有些不太清晰。 采用这种自适应谱增强技术,其原理是让激励的语音信号,经过滤波器来实现的, 而该滤波器是采用自适应谱增强的滤波器。该自适应谱增强滤波器的系数是会自适应变 化的,并且该滤波器的阶数与l p c 的零极点滤波器阶数要相等。这种通过使用自适应谱 增强滤波器,会使激励谱的共振峰频率处的谱的幅度增加,这样就可以达到提高整个短 时谱的性能,从而提高在共振峰处的信噪比。 该滤波器它的实现原理比较简单,算法复杂度不高,采用这种自适应谱增强的技术, 能提高低速率语音编码质量的实用技术,而对编码端来说,不需要有多余额外比特的传 输。 8 沈阳航空航天大学硕士学位论文 2 2 4 脉冲散布滤波器 在m e l p 声码器算法中,使用脉冲离散滤波【l9 | ,是为了让各个频带合成的语音,与 输入原始的语音在远离共振区频率点波形上,具有比较理想的匹配目的。通过实验验证, 合成语音信号带通包络,原始语音信号的带通包络,它们的波形上存在一些不同,特别 是对周期性很强的语音,它们的峰值的大小有很大的区别。而实际上由于环境因数的影 响,实际语音信号的产生过程很复杂,为了进一步使合成语音有更好的自然的语音效果, 应对合成语音的峰峰值进行平滑滤波的处理。m e l p 声码器算法,让合成语音通过一个 脉冲散布滤波器,该滤波器是一个定长f i r 滤波器,基于谱平整合成声门脉冲的,其系 数实现是通过,将典型男性说话基音周期的脉冲的谱,强变为平坦的谱,再进行傅里叶 反变换得到的。它具有减弱一些频带处周期性的作用,由于降低了典型周期附近时的峰 峰值,会使合成语音的产生的蜂鸣影响效果降低,经过这样的处理,最后合成语音变 得就更为连贯和自然,很好的改善了其编码的效果 2 2 5 残差谐波幅度 在语音信号处理中我们知道,在简单的二元l p c 算法中,对输出语音与输入语音的 差值不予处理,这也是传统l p c 算法的不足之处。而在m e l p 声码器算法中采取了处理 这两者的差值信号。我们把输出语音与输入语音的差值定义为残差信号。其实这个残差 信号中含有我们需要的有用信息,这个残差信号对于后来的合成语音来说很重要。由于 该残差信号的频率比较低,从而对我们的语音有很大的影响。因此,要做特殊的处理, 这也是m e l p 算法新增的一大特点。为此,m e l p 算法只对最低的1 0 阶谐波幅度值来进行 量化,而对1 0 阶以上谐波的傅里叶级数幅度值单位值l 来取代。由于使用此方法增加 了语音产生模型的准确性,从而在很大程度上提高了合成语音的自然度,清晰度,抗背 景噪声的能力。 2 3 i i g l p 声码器编码算法过程中参数未量化的处理 2 3 1 皿l p 声码器编码算法的原理框图 对于研究的低速率m e l p 声码器低速率语音压缩编码算法,在一个帧内要有一些比 9 沈阳航空航天大学硕士学位论文 2 2 4 脉冲散布滤波器 在m e l p 声码器算法中,使用脉冲离散滤波【l9 | ,是为了让各个频带合成的语音,与 输入原始的语音在远离共振区频率点波形上,具有比较理想的匹配目的。通过实验验证, 合成语音信号带通包络,原始语音信号的带通包络,它们的波形上存在一些不同,特别 是对周期性很强的语音,它们的峰值的大小有很大的区别。而实际上由于环境因数的影 响,实际语音信号的产生过程很复杂,为了进一步使合成语音有更好的自然的语音效果, 应对合成语音的峰峰值进行平滑滤波的处理。m e l p 声码器算法,让合成语音通过一个 脉冲散布滤波器,该滤波器是一个定长f i r 滤波器,基于谱平整合成声门脉冲的,其系 数实现是通过,将典型男性说话基音周期的脉冲的谱,强变为平坦的谱,再进行傅里叶 反变换得到的。它具有减弱一些频带处周期性的作用,由于降低了典型周期附近时的峰 峰值,会使合成语音的产生的蜂鸣影响效果降低,经过这样的处理,最后合成语音变 得就更为连贯和自然,很好的改善了其编码的效果 2 2 5 残差谐波幅度 在语音信号处理中我们知道,在简单的二元l p c 算法中,对输出语音与输入语音的 差值不予处理,这也是传统l p c 算法的不足之处。而在m e l p 声码器算法中采取了处理 这两者的差值信号。我们把输出语音与输入语音的差值定义为残差信号。其实这个残差 信号中含有我们需要的有用信息,这个残差信号对于后来的合成语音来说很重要。由于 该残差信号的频率比较低,从而对我们的语音有很大的影响。因此,要做特殊的处理, 这也是m e l p 算法新增的一大特点。为此,m e l p 算法只对最低的1 0 阶谐波幅度值来进行 量化,而对1 0 阶以上谐波的傅里叶级数幅度值单位值l 来取代。由于使用此方法增加 了语音产生模型的准确性,从而在很大程度上提高了合成语音的自然度,清晰度,抗背 景噪声的能力。 2 3 i i g l p 声码器编码算法过程中参数未量化的处理 2 3 1 皿l p 声码器编码算法的原理框图 对于研究的低速率m e l p 声码器低速率语音压缩编码算法,在一个帧内要有一些比 9 沈阳航空航天大学硕士学位论文 较严格的要求,即一个语音处理帧为取为2 2 5 毫秒,采样的频率取为输入语音信号最高 频率的两倍多,在这里为8 k h z ,在每个帧内取1 8 0 个采样点为一帧的语音,这样经过 处理后,研究的每帧输出比特数为5 4 比特,最后它的总速率是2 4 k b s 。下面图2 1 是 要分析语音帧的格式: 第一帧第二帧第三帧 其它帧 01 8 03 6 05 4 0 图2 1 崛i j p 算法分析帧的格式 下面将具体的介绍m e l p 声码器算法的编码器原理,见下图2 2 1 0 沈阳航空航天大学硕士学位论文 原 i 始 j 语 土童 隔直流滤 波 输入语 日 通 刊 雨 分 析 臻卜霄硎鲁蓑荛h 萼斗 截止频率 1 k h z 的低 通滤波 螫 析 用量化l p c 参 数进行逆滤波 计算峰 值 非星箨标卜每志位7 i 2 。 辫卜恒 清浊音判卜叫量化 决i l 估萎莩终h 基曩决- 量化 峰值点检测 ( 取前十次谐 波) 图2 2 崛l p 编码原理总体框图 量化 量化 由上图可得到,该研究的m e l p 声码器算法的编码过程主要包括下面几项:即,去 直流滤波( 即低通滤波) 处理,语音信号的基音周期的估算,线性预测l p c 的分析, 语音非周期标志a f 的处理,傅里叶幅度级数的处理,各种参数的量化方式,对数据的 差错控制,最后的打包等过程。 2 3 2 去直流滤波 由语音信号可知,研究的语音信号范围比较广,高低都有,所以首先要对输入语音 信号去直流滤波,其主要目的是,为了去除语音信号中低频部分即小于6 0 h z 的影响。 滤掉小于6 0 h z 语音,则主要是滤掉电源噪声的影响。采用的方法是让原始的语音信号 z 一叫 一 一 一 h 一0 一o ! i e一加z一您记吆靴一舷靴酾z丽眩l藿呲丽眦 。一的 加 一加 一 沈阳航空航天大学硕士学位论文 通过一个4 阶的切比雪夫( c h e b y s h e v ) i 工型的高通滤波器瞳”。对于使用的切比雪夫 ( c h e b y s h e v ) 滤波器,它的幅频特性在处理的一个频带中即通带或阻带内,具有等波纹 的特性。该滤波器有主要有两种,其中一个是在信号通过的通带中是等波纹的,在信号 不通过的阻带中是单调的,称为c h e b y s h e vi 型。而另一种是在信号通过的通带内是单 调的,而在信号不通过阻带内是等波纹的,称为c h e b y s h e vi i 型。对于这里使用的切 比雪夫i i 型,它的高通滤波器的下限频率为6 0 h z ,到阻带的跳跃大概为3 0 d b 。切比雪 夫i i 型的滤波器在信号能通过的全部范围内,它的实际的频率响应和理想的频率n 向应, 两者是具有很小的的差值,通带对信号的响应具有最大的跳变,阻带的性能并不是像工 型切比雪夫滤波器一样很快到零,比较理想。经过高通后的一帧语音信号如下图2 3 所 不: 图2 3 经过高通后的一帧语音信号 2 3 3 基音周期的提取 基音周期是表征一个说话人的特有的声音信息,也是一个音素的特征信息,如果基 音周期提取不准确,合成语音就会根本听不清楚。因此语音信号的基音提取算法在所有 的声码器中都具有极其重要的作用。下面将要研究的m e l p 声码器的基音提取算法在传 统的l p c 基础上做了改进,它能够非常准确的提取到语音信号的基音周期,这种算法主 1 2 沈阳航空航天大学硕士学位论文 要采用以下三个步骤来处理:1 ) 整数基音粗估的处理,2 ) 分数基音精估的处理,3 ) 基音倍 数增减得处理。经过这3 步处理,它对基音周期提取的准确度在9 0o 6 0 以上。具体分类如 下: 1 、基音周期的概述 基音周期的提取是所有参数编码中都要严格处理的对象,它关系到最后合成语音的 成功和失败,因此有人把语音基音周期的提取看作为算法成败的灵魂。在语音信号处理 中比较常见的基音提取的方法可分为下面的三种:其一为波形法估计。也就是直接由语 音信号的波形来估算基音周期的大小,从得到的语音波形上出现的峰值,这种峰值就可 以估算出基音的周期值;其二是采用信号的相关性,即自相关函数方法。这种方法也是 是目前比较用的多的方法,由于该方法对抗波形相位失真很强;最后一种就是采用信号 变换域的方法。即将处理语音信号时间域变换到频谱域,或将时间域变化到倒频谱,从 而来推算语音的基音周期。 对研究的m e l p 声码器算法中,基音的提取采用的是第一种方法,即白相关函数法 来处理。当然这里研究的自相关分析都是在很短的时间内完成的。在时间域中自相关分 析是一种很好使用的时域波形的分析方法。通过采用自相关函数,我们可以确定同一个 语音信号在研究的某一个短时间段内的近似性,再通过计算出该语音的自相关函数的最 大值,从而我们可以确定该信号波形,是否有同步性,是否有周期性。当然在自相关分 析计算时,需要用到的性质是:其一通过计算该语音的白相关函数值,并且该语音与自 相关函数的周期性一致。其二对于清音由于有随机噪声的特性,因此它没有很明显的周 期性。但对于浊音语音信号,由于它存在周期性,所以可以计算其自相关函数值,通过 白相关值有没有最大值,就可以确定是清音还是浊音,另外,从自相关值最大值的峰值 的位置就可以得到基音周期的数值。 在这里研究的m e l p 声码器算法中整个基音处理过程如下图2 4 所示: 1 3 沈阳航空航天大学硕士学位论文 一 数 1 图2 4 此l p 算法中的基音提取过程 由上图基音提取原理过程可知,该基音周期的提取主要有3 步:第一是整数基音提 取得到的p ,第二是通过基音整数修正得到的分数基音p 。,第三是最后基音周期提取 得到p 。,具体基音周期提取如下: 2 、整数基音提取的原理 由于我们人说话的基音频率在5 0 h z 到4 0 0 h z 。相对应的基音周期,大体在2 0 到1 6 0 之间。对于语音信号来说,高次谐波的存在,可能会引起基音的错误判决。所以这样在 基音周期的提取计算中,语音信号的高频分量,它也就成为了干扰的可能。所以在处理 沈阳航空航天大学硕士学位论文 基音提取前面,我们要让语音信号通过一个低通滤波器,这样一来就滤除掉输入语音s ( n ) 的高频部分了,这样就为我们以后的整数基音处理带来了很高的准确性。 在处理整数基音提取前面,我们要先让已经经过低通滤波器后的信号,再通过一个 1 0 0 0 h z ,6 阶的巴特沃斯低通滤波器。由于滤波器的在信号通过范围内具有幅度最平的 特性,而且其随着频率升高而单调递减。 该低通滤波器在软件m a t l a b 中可以由函数表示如下: n u m i ,d e n o m i :b u t t e r ( 6 ,1 0 0 0 4 0 0 0 )( 2 - 1 ) 上式中,传递函数的分母为d e n o m i ,传递函数的分子为n u m i ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论