（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-27 格式：PDF 页数：79 大小：2.20MB 积分：0 举报 版权申诉

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf_第2页

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf_第3页

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf_第4页

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf_第5页

已阅读5页，还剩74页未读，继续免费阅读

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中国科学技术大学硕士论文摘要摘要语音编码研究怒近年来信号处理领域的研究热点，由于频率资源有限，以及逶信技术帮裔声郏件静发震，对语音的传输效率帮存储容量都提出了穰高的要求。因此，对低磁率语啻编码斡研究，具森+ 分重要匏实用意义。参数( 模黧) 编码怒目前低码率语音编码研究中的重点，该方法建立发声模型，然鬃提取表链模型特缓豹参数。这都楚基予语音信专具裔短辩平稳特瞧的这个前掇，按短时帧分析得到语膏信号的模型参数，然艨传输或存锉这些参数：在解码的时候，利用这些参数及采用的模型，合成得到再生语音信号。在垦裁低磷率遘骞编码研究中，线性预测镶秘( l p c ) 是一辩魄较黪荸蠢效实用的好方法，2 4 k b l s 的l p c * 1 0 e 编码方法已经被确定为美国联邦语音编码标准( f s 一1 0 1 5 ) 。在研究基于合成分析( a b s ) 的线性预测编码( l p c ) 原理的基獭上，针对舞傍遗一步降低l p c 谮音编码的犸率徽了避一多的分析和研究。并照在线性预测编码( l p c ) 躲基础上对线性鞭测声玛嚣擞了改遴，实现了一穗碣率程2 k b s 以下的变码率线性预测声码器。本文的主要研究内容和工作如下： l 、根据语意信鼍形成过穰中，浊啻语音段鲍声遘特征变化较缓慢的特点，引用似然比失真的概念来定义及定鬣的计算l p c 系数间的相似度并将这方法纛用予l p c 语音编码中，该方法充分利用了语音信号前后的相关性，进一步除去语誓信号孛静冗余度，麸焉有效瓣减少编码静璃率。 2 、l p c 编码在对l s p 系数进行矢羹量化的时候，其码本设计悬对所有的添音榉本的l s p 矢量进行攘体设计，因丽需要较多的粥本和存储量。本文引入了分类分段的矢量量他方法。在进行矢璧量他兹，先用v q 聚类蛇方法将参数矢量调练集会避雩亍分类，然后再在每类矢量集合中将矢量分段成3 个低维矢量来进行矢量量化。可以在相同的礴字情况下选到眈较好的董仡效采。 3 、在l p c 语音编码系统中利用a m d f 算法来做基音周期检测，本文对 a m d f 的算法进行了改进，通过建忘一个非连续的基音周期搜索表，利用表中豹佳束遘露a m d f 计算检测萋音璃颓，实验结采表弼在不酶低鍪音周期检灏准中国科学技术大学硕士论文摘要确性的前提下大大的降低计算量。通过引入上述方法，可以把l p c 编码的码率降低到大约1 6 k b s 。关键词：语音编码似然比失真a m d fl p c 系数相似度孛嚣辩学技术大学硕士论文a 转s t r a e f a b s 絮r a c t r e s e a r c ho n s p e e c h c o d i n g h a s c a u g h t m u c ha t t e n t i o ni nt h ef i e l do f s i g n a l p r o c e s s i n gr e c e n t l y 。t h et r a n s m i s s i o ne f f i c i e n c y & s t o r a g es p a c eo fs p e e c ha r e h i g h l yr e q u i r e dd u et o t h el i m i t a t i o no f 丘e q u e n c yr e s o u r c e s ，t h e d e v e l o p m e n to f c o m m u n i c a t i o nt e c h n o l o g y & v o i c em a l l s s i n c ec o m p r e s s i n g s p e e c hs i g n a l h a s b e c o m eo n eo ft h ee s s e n t i a lw a y st os o l v et h e s ep r o b l e m s ，t h er e s e a r c ho nl o wr a t e s s p e e c h c o d i n gh a so b t a i n e dp r a c t i c a ls i g n i f i c a n c e p a r a m e t e r ( m o d e l ) c o d i n g ，a st h ef o c a lp o i n to ft h ec u r r e n ts t u d yo nl o wr a t e s s p e e c hc o d i n g ，e s t a b l i s h e ss o u n d - p r o d u c i n gm o d e l sa n dp i c k su pc h a r a c t e r i s t i c p a r a m e t e r so f v a r i o u st o k e nm o d e l s b a s i n go nt h ep r e m i s et h a tt h es p e e c hs i g n a l sa r e s h o r ta n d s t e a d y ，m o d e lp a r a m e t e r s o ft h e s p e e c hs i g n a l s c a l lb eo b t a i n e d b y s h o r t - t e r mf r a m ea n a l y s i s t h e nt h e s ep a r a m e t e r sw i l lb ee i t h e rt r a n s m i t t e do rs t o r e d w h e ni tc o m e st od e c o d i n g ，w i t ht h ep a r a m e t e r s t h em o d e l sa d o p t e d ，t h es p e e c h s i g n a l sc 勰b er e p r o d u c e dt h r o u g hs y n t h e s i s i nt h ec u r r e n tl o wr a t e s s p e e c hc o d i n gr e s e a r c h ，l i n e a rp r e d i c t i o nc o d e ri s p r a c t i c a l l ys p e a k i n gas i m p l e & e f f i c i e n tm e t h o d l p c - 1 0 ea t2 4 k b sh a sb e e n a d o p t e da st h en e w u 。s 。f e d e r a ls t a n d a r d ( f s 一1 0 1 5 ) a f t e ra t h o r o u g hs t u d y i n go n p r i n c i p l e & i m p l e m e n t o fl p c b a s i n go n t h e a n a l y s i s b y s y n t h e s i s ( a b s ) m e t h o d ，w e w o r ko nt h ei n - d e p t ha n a l y s i sa n de x p l o r eo nh o wt of u r t h e rr e d u c et h eb i tr a t e so f l p c a l s oa l l i m p r o v e dp r e d i c t i o nc o d es y s t e mt h a tc a l lr e d u c et h eb i t r a t e si s p r o p o s e d t h em a i nc o n t e n ta n dr e s u l t so f s t u d yi nt h i sp a p e ra r ea st h ef o l l o w s ： i 、i nt h ep r o c e s so ft h ef o r m a t i o no f s p e e c hs i g n a l s ，t h ec h a n g eo f t h ev o c a l t r a c tc h a r a c t e r i s t i c so fu n v o i c e ds o u n di ss l o w t h e r e f o r e ，t h ec o n c e p to fl i k e l i h o o d c a nb eu s e dt od e f i n ea n dq u a n t i t a t i v e l yc a l c u l a t et h e s i m i t a r i t yb e t w e e nl p c c o e f f i c i e n t s a n dt h i sm e t h o dc a na l s ob ea p p l i e dt ol p cs p e e c hc o d i n gs oa st o s o m e h o we f f i c i e n t l yr e d u c et h eb i tr a t e s t h i sm e t h o dm a k e sf u l lu s eo ft h e ! 墨楚兰垫垄茎兰鐾主燕壅皇! 坚! 璧! i n t e r r e l a t i o nb e t w e e nt h es p e e c hs i g n a l s ，d e c r e a s e st h er e d u n d a n c yi ns p e e c hs i g n a l s ； a n dr e d u c e st h eb i tr a t e se v e nm o r e 2 、w h e nl p cc o d e rd o e sv e c t o r q u a n t i z a t i o nt ol p c 愿s pe o e f f i c i e n t s t h e c o d e b o o kd e s i g ni sf o rt h eo v e r a l ls p e e c hs a m p l ev e c t o r s ，t h e r e f o r em o r ec o d c b o o k a n ds t o r a g es p a c ew i l lb en e e d e d i nt h i s p a p e ram e t h o do fv e c t o rq u a n t i z a t i o n a c c o r d i n gt oi t sc l a s s i f i c a t i o na n dp e r i o di si n t r o d u c e d b e f o r ev e c t o rq u a n t i z a t i o n ， v qc l u s t e r i n gm e t h o di su s e dt oc l a s s i f yt h i sv e c t o r ，t h e nu n d e re a c hc l a s s i f i c a t i o n t h i sv e c t o ri sd i v i d e di n t ot h r e el o w - d i m e n s i o nv e c t o r sa n dt h e nv e c t o rq u a n t i z e d r e s p e c t i v e l y 骶l i sm e t h o du t i l i z e st h es p e c i a l t i e so f s p e e c hs e g m e n t sf r o mv a r i o u s c l a s s i f i c a t i o n sa n dc a na c h i e v eb e t t e r q u a n t i z a t i o n e f f e c tw i t ht h es a l l l ea m o u n t o f c o d ew o r d 3 、u s ea m d fi nl p c c o d i n gs y s t e mt oc a l c u l a t ep i t c hc y c l e i nt h i sp a p e r a m d fm e 氇o di s i m p r o v e da n d t h ec a l c u l a t i o nw o r k sa r e g r e a t l y d e c r e a s e d w i t h o u t i n f l u e n c i n g t h e a c c u r a c yo f p i t c hc y c l ec h e c k b yu s i n gt h em e t h o d sm e n t i o n e da b o v e ，t h eb i tr a t e so fl p cc o d e rc a nb e r e d u c e dt oa b o u t1 6 k b s k e yw o r d s ：s p e e c hc o d i n g ，l i k e l i h o o dd i s t a n c e ，a m d f ，s i m i l a r i t yb e t w e e nl p c c o e 缳c i e n t s 中国科学技术大学硕士论文第一章：引言第一章引言 1 1 语音编码及其发展概况语音编码可以分为波形编码和声码器编码，或者分为非参数编码和参数编码，参数编码有时也称为模型编码。自3 0 年代初提出p c m 原理和声码器两个概念后，语音编码一直沿着这两个方向发展。语音信号的波形编码是力图重建波形保持原语音信号的波形形状。它的特点是将语音信号作为一般的波形信号来处理，适应能力强，话音质量好。但需要编码的码率高。脉冲编码调制( p c m ) 、自适应增量调制( a d m ) 等都属于这一类。这类方式的语音编码一般能在1 6 k b s 到6 4 k b s 的速率上给出较高的语音编码质量。同波形编码不同参数编码通过对语音信号特征参数的提取及编码，力图使重建语音有尽可能高的可懂度，即保持原语音的语义，而重建信号的波形可能会同原语音波形有相当大的差别。这类编码器的优点是码率低，其码率可以在 1 6 k b s 以下，甚至在2 4 k b s 左右。它的问题是合成语音的质量差，特别是自然度较低。另外，这类编码器对讲话环境噪声较为敏感，需要比较安静的讲话环境才能给出较高可懂度的重建语音。通道声码器、共振峰声码器以及目前广泛使用的线性预测声码器都是典型的参数编码器。还有一种编码方法是混合编码。混合编码同时运用了波形编码和参数编码的技术，在中等码率时可产生较好的再生语音质量。图1 1 给出了三类语音编码方法得到的比特率和再生语音质量的对比。 s p c 珏l q u i y b 玎r 髓( 袖l _ 棚图1 1 三类语音编码方法得比特率和再生语音质量对比图一一：m 嘲中国科学技术大学硕士论文第一章：引言在对语音编码的研究过程当中，人们一直对如何降低编码码率进行着各种尝试，研究出了各种低码率语音编码系统。由于在语音信号中存在了很多冗余信息，使得低码率语音编码成为可能：另外，由于人的听觉系统对不同频率段声音信号的感知敏感度是不一样的，并且对频率的动态范围还有一定的限制，语音编码就利用这些特点来压缩语音编码的比特率。随着信息安全和通信技术的发展，以及频率资源越发紧张，因此在通信网络的发展中解决信息传输效率是一个关键又极其重要的问题。解决这一问题的一个主要方法就是压缩表示语音信号的比特率。当前，无线通信、有声邮件等一些相关应用的迅速发展，也对语音编码提出了更高的要求；另外，在存储大量语音文件的时候，为了节省存储空间，也需要大幅度降低语音编码的比特率，因此低码率语音编码成为当前语音编码研究的热点。目前，语音编码在 1 6 k b j 的码率以上都能得到质量非常好的再生语音，但随着码率的降低，再生语音的质量也随之降低，因而在更低码率( 4 k b s ，甚至是2 4 胁j ) 下，如何获得较高可懂度的语音成为研究中的一个重要方向。 1 1 1 衡量语音编码技术的三个指标 1 码率一般用一秒钟语音所需的比特数( b s ) 来表示。压缩是语音编码的主要目标和任务，所以码率是衡量一个语音编码技术的重要指标。语音编码的码率从1 9 7 2 年的6 4 k b s 的p c m 编码，1 9 8 4 年的3 2 勋s 的d p c m 编码，到1 9 8 8 年g s m 组织公布的1 3 k b s 和1 9 8 9 年美国蜂窝通信工业协会( c t i a ) 公布的北美 8 k b s 数字移动通信语音编码标准再到最近的2 4 k b j 的新的美国联邦标准，压缩了二十多倍。 2 再生语音质量在给定的比特率下，经过编码和译码后所产生的再生语音信号的质量。m o s 分( m e a no p i n i o ns c o r e ) 是一种常用的主观判定方法。用平均主观评价的打分来度量，用五级确定语音质量的等级，有优 ( e x c e l l e n t ) 、良( g 0 0 d ) 、中( f a i r ) 、差( p o o r ) 、劣( b a d ) 五级。但在低比特率语音编码中，常用两种方法来衡量再生语音的质量：音韵字可懂度( d r t ) 和满意度测量( d a m ) ，后者是再生语音质量可接受程度的一种度量。 3 编码复杂度一种语音编码技术最终要在实际的通信系统中运用，必须要求其编码和解码能实时进行，这就要求编解码的复杂度不能太高。增加算法复杂程度可以提高语音编码质量，但往往也伴随着增加编码解码的延时。在实时语音通信系统中，语音编码解码的延时同线路传输延时的作用一样，对通话质量有着很大的影响。 2 中国科学技术大学硕士论文第一章；引言在实际的编码系统中，这几个指标是互相矛盾的，很难做到使这三个方面同时达到最优。通常只是强调某一方面，而同时适当兼顾其它方面。 1 2 低码率语音编码及其研究现状目前，1 6 k b s 和8 k b s 语音编码方法已经标准化了，能够提供通信质量的再生语音。现在，低码率( 4 8 k b s ) 语音编码正在向标准化的方向发展，这方面的主要方法还是码激励线性预钡i ( c e l p ) 编码。而目前语音编码算法的研究主要集中在更低的码率上，如2 4 k b j 和1 2 k b s 。其中2 4 k b s 的l p c 1 0 e 语音编码已经被定为美国联邦标准f s 1 0 1 5 1 1 1 。近年来，这方面研究主要有4 种方法：多带激励编码( m b e ) 【2 卅，正弦变换编码( s t c ) 【5 埘，基于线性预测原理的编码( l p c ) 【7 也l ，和波形插入编码( w i ) 【1 3 2 1 。其中m b e 和s t c 是基于正弦分析合成模型，w i 是基于正弦分析合成模型和线性预测模型的混合模型，l p c 是基于二元激励的线性预测模型。 1 多带激励( m b e ) 编码基于线性预测模型的语音编码方法的一个固有的缺点就是在没有附加预测残差信息时，再生的语音信号质量很差。预测残差可以看成是对线性预测不准确的一个修正。丢掉这个残差，再生的语音很刺耳，有很强的机器昧。因此，高质量的语音编码都要传送预测残差，不同编码系统的最基本的不同点就是用不同的方法来传送预测误差。在低于8 k b s 的线性预测编码中，最常用的方法就是把预测误差分成一个个小段，即矢量，然后通过一个码本搜索最佳的匹配，然而，这个搜索计算量比较大，而且当码率降到4 k b s 时，再生语音质量很差。 m b e 是由d w g r i m n 于1 9 8 7 年在m i t 提出的。m b e 是不需要传预测误差的参数编码方法，它工作在频率域。m b e 将每帧语音分成不同的频率带，在每个频率带上做清浊音判决，每一帧的激励信号是周期脉冲和自噪声的混合，由于每个频率带上的混合比例不同，所以能产生较高质量的再生语音，并且， m b e 对环境噪声有很强的鲁棒性。 2 正弦变换编码( s t c l 正弦变换编码的基础是周期信号的傅立叶变换，把语音信号分解成为一个序列为一定幅度、频率和相位的正弦信号，这种方法可以重建出高质量的包括中国科学技术大学硕士论文第一章：引言语音、音乐等等的各种声学信号。基于正弦变换的语音编码方法中，将语音信号分解成基音周期的及其谐波分量，主要量化正弦信号的幅度和相位。最小相位正弦谐波编码方法，避免了量化相位信息，可以在4 8 k s 左右的比特率上再生出较高质量的语音。 3 波形插入( w i ) 编码波形插入方法是由k l e i j n 博士提出的”，最初是为了提高码激励线性预测( c e l p ) 的语音质量，称为原波形插入算法( p w i ) 。这种算法在浊音段，每隔一定的时间( 2 0 m s 3 0 m s ) 就提取并传送一个周期的原始语音波形，在没有传送的部分，则采用线性插值的方法得到波形。而在清音段，仍然用码激融的方法，因此，p w i 方法只能和c e l p 相结合，在3 o k b s 4 o k b s 的码率上得到很好质量的语音。 p w i 编码在码率降到3 0 k b j 以下的时候，再生语音质量会恶化，于是又出现了一种基于特征波形分解【2 1 l 的语音编码算法。在这种算法中，用一系列不断演化的特征波形( c h a r a c t e r i s t i cw a v e f o r m ，简称c w ) ，在浊音段，特征波形演化较慢，在清音段，特征波形演化较快。通过对两种语音分别进行处理，能使再生语音质量在2 4 肋j 的码率上比p w i 方法有明显的提高。 4 基于线性预测原理o l p c ) 的语音编码 l p c 声码器假定当前语音样点值可以由前面若于个语音样点值的线性组合加上预测误差来表示，从而再生语音可以由该误差信号激励一个全极点合成滤波器得到。通常用周期信号或者白噪声去激励一个全极点的合成滤波器。也就是二元激励。在l p c 原理的基础上发展出了很多编码系统如m e l p ，m p e l p 和c e l p 等等。它们在线性预测的原理和基础上考虑了其它各种因数形成了自己的发展。同时人们对l p c 声码器本身的研究也从未停止过。随着其它相关技术的发展，如矢量量化技术的发展，计算机速度的提高，以及人们对发声原理认识的深入，l p c 声码器同样也得到了发展。矢量量化技术( v q ) 充分利用了语音信号在频域上的冗余度，使得l p c 声码器的码率得以进一步的降低；与之对应，也可以充分利用语音信号在时域上的冗余度来降低码率。 4 中国科学技术大学硕士论文第一章：引言 1 3 本文的主要研究内容本文以l p c 语音编码方法为基础，研究进一步降低码率的方法。语音信号中存在着大量的冗余信息，这是低码率语音编码得以实现的前提。语音编码的任务就是最大限度的除去这种冗余。在所有传统的基于l p c 分析一合成编码方法中，所有的参数都是逐帧传送的，每帧的码率都是固定的。这种做法的一个不足之处就是没有考虑到语音的浊音信号在产生过程中，声道特性变化缓慢这一特点，本文就是从这个方面进行考虑，研究表征声道特性的l p c 系数之间的短时相似性，进一步除去特征参数间的冗余度，从而在2 4 k b s 的l p c 声码器的基础上进一步降低码率。另外，在基于l p c 的分析一合成编码方法中，对于用来构成合成滤波器的 l p c 系数采用矢量量化的方法，这种量化方法可以大大减少表示l p c 系数的比特数。但是在传统的方法中，其码本设计是对所有的语音样本的l p c 矢量进行整体设计，得到一个单一的码本。这样做没有考虑到不同语音段的特点，不但量化效率受到限制，而且码本一般较大，需要较大的存储空间和较大的搜索量。因此，论文的工作内容之一是利用浊音语音段的声道特征变化缓慢的特点，找到相邻帧之间的相似性；二是利用各语音段的不同特性，对l p c 系数分类，对l p c 系数分别进行矢量量化，构成不同的矢量量化码本，以减小存储量和搜索量，并提高量化和执行效率；三是对a m d f 算法进行改进，减少a m d f 算法进行基音周期检测的计算量。本文的主要工作就是针对这三个问题展开的。同时，对l p c 的声码器的二元激励进行改善，使激励源更加精细，从而来改善重构语音的质量。首先，介绍了利用似然比失真测度来比较和衡量l p c 系数的相似度，l p c 系数间的相似度可以比较好的表现不同语音段声道特征的相似性。对于两组相似度较大的l p c 系数，用相同的激励信号去激励由它们构成的合成滤波器，所得的输出波形很相似。而对于声道特征变化比较缓慢的浊音发音，其相邻帧波形的变化主要反映在激励信号上，往往它们的l p c 系数有较大的相似性。这样，当前帧语音信号的l p c 系数与前面相近的某一帧语音信号的l p c 系数的相似度在某一阈值内的时候，可以不用传送该帧的l p c 系数，而只传激励信号参数，在解码的时候利用前面的那帧语音信号的l p c 系数替代该帧语音信号的 l p c 系数，合成的语音与用该帧语音的l p c 系数为参数合成的语音信号仅有很中国科学技术大学硕士论文第一章：引言小的差别，对再生语音的可懂度不会带来较大的影响，但是可以大大的降低码率。其次，提出了基于分类的l p c 系数矢量量化方法。先用v q 聚类方法把 l p c 系数分成3 类，然后对每一类分别进行矢量量化，构成3 个不同的矢量量化码本。量化的时候，先确定待量化矢量的所属类别k ，然后选择该类所对应的码本进行量化；将这个矢量的类信息k 和它在该类码本中的码字编号v 组合起来，构成该矢量量化后的编码；解码的时候，根据类信息世选择码本，在该码本中找到编码为v 的码字，即为该编码解码后的矢量。这种方法克服了传统矢量量化对所有的矢量用统一的码本进行量化的问题，利用了不同语音段的特点，用多个尺寸较小的码本代替单的尺寸较大的码本。在原有的矢量量化比特位数没有太大变化，码本搜索量基本不变的同时，将实际的码本空间变为原来的三倍，随着实际码本空间的增大，对于矢量量化的质量有很大的提高。上述两种方法在l p c 声码器中的引入，通过实验证明是可行的，可以把 l p c 编码的码率降低到1 6 k b s 以下。另外，本文还介绍了一种改进的a m d f 算法来检测基音周期，使得传统a m d f 算法的计算量降到了原来的一半，而且并不影响基音周期的检测的准确性。其主要目的是为降低语音编码的计算量，减小复杂度，减小编码延时。 6 中国科学技术大学硕士论文第二章：l p c 语音编码的原理和基础 2 1 引言第二章l p c 语音编码的原理语音编码可以分为波形编码( w a v e f o r mc o d i n g ) 和参数编码方式。波形编码是一种能表现波形的编码方法，从本质上来说波形编码其实是对语音信号波形的量化。而语音信号的参数编码方式则是根据语音的生成模型，并通过一定的分析方法，将产生语音的过程转换成参数表征的生成模型来表示，在合成语音时，是采用由这些参数形成模型来生成语音的。因此，对于分析合成的语音参数编码方式，其分析方法是十分重要的，通常称为合成分析方法( a n a l y s i s b y s y n t h e s i s ) 。在这种方法种，预先假定信号的生成模型，这种模型的生成值与观察值之间存在误差，通过反馈控制，可以得出使其误差为最小的模型参数，并把这些参数定为该模型的特征参数。所以在a b s 中，重要的是语音生成模型的建立、选择，误差为最小的评价尺度和算法的选择等等。实际上，a b s 这种处理信号的方法不仅适用于从声音中提取参数，还适用于其它许多生成模型的场合。从人的听觉器官的感受来看，人所能听到的声音的动态范围和带宽等是受到限制的。另外，从语音信号产生的物理机理和语言结构的性质可以看到，语音信号中存在较大的冗余度，因此，可以利用这些冗余度和语音生成与听觉上的制约，能够把原始语音信号中的冗余信息进行压缩，能够忽略对人类听觉感受接受范围之外的信息，只表现语音信号的必要信息，从而对语音编码实现高效率传输和低容量存储。对于人类发声机制研究后人们提出了多种语音生成模型的假设，因而也有多种相应的语音分析合成系统，例如基于带通滤波器组的通道声码器，共振峰声码器，以及基于线性预测的l p c 声码器。本文主要对基于线性预测原理的l p c 声码器进行讨论，线性预测( l p ) 的原理是假定当前语音样点值可以由过去若干个语音样点值的线性组合加上预测误差表示。从l p c 的原理可以看到再生语音可以由该误差信号激励一个全极点合成滤波器得到，其l p c 原理的模型如图2 1 。 2 2 语音形成机理及其特点 7 中国科学技术大学硕士论文第二章：l p c 语音编码的原理和基础为了建立语音的生成模型所以必须要研究语音信号是如何从人的发声器官产生的，有哪些器官在决定语音的发生和变化，以及要了解它们都有那些重要的性质。同时也应该知道在发声形成的过程中，语音在不同阶段有哪些基本单元组成，不同阶段过程中不同发声器官所起的作用。在这些基础上，建立一个简单、实用和有效的语音生成模型。同时在研究语音编码的时候，要根据语音信号本身的特性，对语音生成模型和语音信号的特点进行分析，找出适合语音压缩的编码方法。图2 - 2 给出了人类物理器官产生语音信号的结构模型示意。人的发声器官有肺、气管、喉、咽、鼻腔、口腔等构成，它们作为一个整体，形成连续的管道。喉的上面部分称为声道( v o c a lt r a c t ) ，通过腭、舌、嘴唇等的动作，可以产生各种形状的变化。当由腹肌压迫隔膜，从肺部压出的空气，经由气管到达喉部的声门，冲击声带( v o c a lc o r d s ) ，再通过声道，引起气输入语音s ( n ) 编码器示意图匝亘至h 矿臣堕丑铲建语音解码器示意图图2 1 流和声带的相互作用，便形成了声音。因此，声音的形成过程可以分为三个阶段：气流的产生、调音、发出。其中，从肺部来的气流，通过声带间的可变空隙( 声门) ，产生规则的气流，就形成了人耳可以听到的声带声源( g l o t t a l - s o u r c e ) 。调音是由声道，口腔，唇，鼻等各个部分的动作共同完成的，通过改中国科学技术丈学碛士论文第二章：l p c 语音编码的原理和基础变鼹调整声道、墨黢，艨型秘鼻黢毂形状，以产生各转冬挂戆声音，然聪，搀载有语义信息的声音发送传播出去。根据语音产生方式的不间和语音本身的特点，一般将它们大致分为三类啬：注音( v o i c e d ) 、清音( u n v o i c e d ) 、爆破音( p l o s i v e ) 。浊音鲍特点是：发声时声豢期互靠近，这个时候，耀片声带之间鲍空隙f 声门) 变成一条窄缝，当气流通过这个窄缝时，气流的压力变小，从而使两片声带完全闭合便气流不能通过，在气流阻断时压力恢复正常，从而使声带间的缝隙荐次形成。傻气流邋遗，发声薅声遂苓受羁显静阻挡。这稀声门一开一会静遂程是周藤复始地进褥鳃，从露形成一串周期性脉冲气流送入声邋。这个脓冲审的周期就是语音的綦音周期( p i t c h ) ，对于女性和小孩，他们的基因周期比较小，也就是说他们的声门开合比较快，而对于成年男性，其基音周期相辩比较大。瀵啻发声避候的特点是：声豢是不振动的，始终处予打开状态。它是由来自肺部的高速气流通过受阻的声道而产生的，这类谮音信号没有明显的周期性。爆破啻慰是鑫空气攫力在完金关溺翡声道嚣袄聚增鸯耩，簌声遂突然打开时，这股气流突然被释放后产生的。， i一 tj 一_ v o c a l c 岫奉 a i r 图2 2 语袁信号产生的物理模型 s p e e c h 9 中国科学技术大学硕士论文第二章：l p c 语音编码的原理和基础在上面的三大类发声之外还有一些不在这三类范围之内，它们属于混合类型，比如浊擦音( v o i c e df r i c a t i v e ) ，发音时，声带会振动，同时声道受阻。在清、浊音的过渡段，语音信号会出现比较复杂的变化。声音的强弱由来自肺部气流量的大小决定。所发的声音是由声道的形状决定，改变声道的形状，就会产生不同的声音。因为语音本身具有长时随机性，短时平稳性，所以声道特性的变化也是如此，就短时而言声道相对变化比较缓慢，一般在1 0 r e s 1 0 0 m s 的量级，所以可以在短时内把语音信号和声道变化看成是一个准平稳过程。 2 3 语音信号产生的数学模型在研究语音信号产生的时候，将问题作一定的简化，把语音信号产生的物理模型抽象为一个数学模型，寻找出语音信号产生的物理模型和抽象的数学模型各个部分之间的对应关系。并通过对这个抽象数学模型的分析来研究如何对语音信号进行编码。因此建立一个离散时间系统的语音产生模型来模拟人的发声过程，对于研究语音信号尤其对语音编码来说是非常重要的。通过对上面语音产生的物理模型分析知道，语音是由气流脉冲通过声道而产生的，这个模型应该包括两个部分：激励源和声道模型。所以对语音产生的物理模型在整体上可以用如图2 3 所示的数学模型来表示：周期脉冲白图2 3 语音信号产生的数学模型音在整体上把这个模型的数字语音信号看成是一个激励信号为周期脉冲或者是自噪声经过线性合成滤波器的输出。其各个部分与语音产生的物理模型的对关系如下： 1 0 中国科学技术大学硕士论文第二章：l p c 语音编码的原理和基础声道何( z ) ( l p c 滤波器) 空气u ( n ) 一( 激励信号) 声带振动v ( 周期脉冲) 声带振动周期r ( 基音周期1 清音u v ( 白噪声) 空气量g ( 增益) 从图2 3 可以知道激励源分为浊音和清音两个部分，按照浊音、清音开关所做的判决来决定语音的激励。在浊音情况下，激励信号由一个周期脉冲器来产生。所产生的序列是一个周期为r 的冲击序列，即每隔丁就有一个样值为1 ，而其余的值都为0 。在清音情况下，激励信号是由随机高斯白噪声发生器产生。该随机噪声的均值为0 ，方差为1 。- ( z ) 为合成器，在l p c 的线性分析中，它表示的是一个全极点的合成滤波器。于是，表示这个模型的所有特征参数为：h ( z ) 合成滤波器参数、g 增益参数、u 清浊判决参数和t 基音周期参数。根据语音信号的短时平稳性，这些特征参数一般1 0 3 0 m s 变化一次，假设每个短时帧( 2 2 ：5 m s ) 变化一次，在采样率为8 0 0 0 h z 时，一帧语音就是1 8 0 个样点。于是，l p c 模型中就把每帧语音信号表示为： s = ( s ( 0 ) ，j ( 1 ) ，s ( 2 ) ，s ( 1 7 9 ) ) 把给定特征参数，要求s 的过程叫语音合成，用标准的滤波器算法来实现；而给定s 来求语音信号的特征参数过程叫语音分析。显然，分析是实现合成的基础。 2 。4 线性预测编码( l p c ) 分析线性预测分析所包含的基本概念是，一个语音的抽样能够用过去若干个语音的抽样来线性逼近。并通过使实际语音的抽样值和线性预测抽样值之间的差值平方和( 在一个有限间隔上) 达到最小值，能够确定唯一的一组预测器的系数( 预测器系数是线性组合中所用的加权系数) 。由线性预测原理【4 2 i 可以知道：原始语音信号如下表示：【，s ( n ) ，s ( n - 1 ) ，s ( n - p ) ，】= s( 2 1 ) 其中，j ( 聆) ，l l ( 一o o ，+ ) 是各个样点值。这样，对于语音信号，可以从过去的样点值线性预测到现在的样点值 j ( 门) ：中国科学技术大学硕士论文第_ = 章；l p c 谱音编码的原理和基础；( n ) = 一口，s o o ( 2 2 ) i = l 由式( 2 1 ) 和式( 2 2 ) 黉i j 有： s ( 精) 一毒( 栉) = # ( 范)( 2 。3 ) 于是，s ( 姐) 可表示成一下形式： p s ( 野) + a , s ( n - i ) = # ( 磅 ( 2 4 1 1 产令：彳( z ) = q z “，箕中a i 为实数，a o = 1 。 l _ 0 所以，s ( n ) 可以看成由信号p ( 一) 激励一个全极点滤波器产生。于是线性预测编码( l p c ) 分析其实就是个求解滤波器系数的问题。其中假设一个已知系列j ( h ) 是峦一个来懿痔列# ( 国激融一个来知系统产生韵。亩式( 2 可知，这个未知系统是一个线性慰不变鲍全极点系绞，如图2 4 鼹承。霜2 4l p c 势桥系统这样求解系数就归缩为鲡何确定模型的参数a ，。如采有一种算法，能根据已舞熬s ( 拜) i f 确煞砉计塞a 。，那么这个来辩系统量( z ) 馒酉隶褥。由于量( z ) 曩( z ) = s ( z ) ，擐援h ( z ) 帮s ( z ) 使霹求褥嚣( z ) 。为了寻找别一个高效的求解算法，对这个模型加上一个限制。对未知序列 e ( z ) 加以约束，将之改写成g e ( n ) 的形式。其中口( 一) 是一个周期脉冲序列或者高斯自噪声序捌。g ( 竹) 这个周期脉冲序捌可以表示为：口( 一) = 万( 竹一 ( 2 5 ) 当n = 0 时，占( h ) = l ；而对于其它的n t 直a ( n ) 全为o 。n ，是脉冲序列的周期。当e ( n ) 为高斯囱噪声时，其均值为0 ，鼠其宙相关函数满足：震。( d = 艇( 栉) 口( n 十，) 】= 8 ( 0( 2 6 ) 中霉秘学技术大学骥圭论文第二章：l p c 谱音编璐的琢瓒帮基融系数g 是一个非负实数，通过它的改变来控制系统输出序列s ( n ) 的幅度的大小。通过上面的条件假设，就得到了一个适用于语音信号处理的模擞。也就怒说已知一个序列s ( 摊) ，以及礁定它是出一个震熬躲淬侉列或者褰簸鑫噪声序列激励一个全极点滤波器所构成的模型产生，同时在“最小均方误差”评馀凇则下求解出模型的参数( p 以及a 。一a ，) 、激励信号e ( n ) 和增益系数g 的解。在序列s ( n ) 中侄取一个时刻h ，假设在时刻坩以前的p 。个样点上语音信号的值s ( n 一1 ) s ( n 一2 ) ，s ( n p ) 芭知，而h 时刻的语音样点值采知。现在用这尹。个榉点上语音信号豹傻来蓣溅嚣时粼豹语音襻熹值。翔采用；( 珂) 采表示这个预测毽，那么它可以写成： i ( 蟛= 锈s ( n - i ) 疆。7 ) 其中a ，都为实数，称作预测系数。蔼颈铡值；( 释) 与真实氆s ( n ) 之间豹误麓称为鞭测误差，翅嚣( 拜) 袭示，e ( n ) 援- f 式计算：占( 托) = s ( 样) j ( 彩= s ( 力+ 蜃，s ( n - i ) ( 2 8 ) 由于s ( n ) 蹩一个随机序列，所以e ( n ) 也是一个随机序列。可以用e ( n ) 的均方值仃。= e 1 6 2 ( n ) 】采衡豢线戆预测豹霞量。最然，吼越接近0 ，这个线性预测的准确度在均方误茇下越好。为了计算戆方便，般耀式( 2 9 ) 来代替计算孛豹均方值。这时，拶，2 可表示为： 2 = 譬2 ( 拧) ( 2 9 ) 对于一个特定语音黟列，莎，2 鼹取傻取决予p 彝冬除系数a i 。鳐果黢找到一个 p 和一缉系数，使尊。2 达到最小僮，那么这维系数就是最佬预测系数，用鑫；表示。可以证明，如果语音信号是由图2 4 所示的全极点模型产生的，则最佳预测阶数p = p ，最佳预测系数a 。= a 。，f - 1 一尸。证明如下，按照图2 4 所产生的语音信号s ( n ) 可表示为： s ( 行) = 一d 。j o f ) + ( h ) ( 2 1 0 ) 将式( 2 1 0 ) 代入式( 2 8 ) 在代入式( 2 9 ) 就可以得到吼2 的下列表达式：：l 量a , s 趣一母一杰q 。积一秘+ ( 磅 l ：状撑) 苫( 摊) 国1 1 ) 中国科学技术大学硕士论文第二章：l p c 语音编码的原理和基础其中，( 玎) = q s ( 珂一f ) 一口j s ( n - i ) ，g ( n ) = g e ( n ) 。 l = li = i 这样，就可以得到巳2 = f 2 ( h ) + 2 ，( n ) g ( ，1 ) 十9 2 ( 疗) ，由于误差p ( n ) 是方差盯2 ，均值为0 ，互不相关的随机变量，即序

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）低于2kbps的变码率线性预测声码器的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档