




已阅读5页,还剩74页未读, 继续免费阅读
(电路与系统专业论文)低于2kbps的变码率线性预测声码器的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士论文摘要 摘要 语音编码研究怒近年来信号处理领域的研究热点,由于频率资源有限,以 及逶信技术帮裔声郏件静发震,对语音的传输效率帮存储容量都提出了穰高的 要求。因此,对低磁率语啻编码斡研究,具森+ 分重要匏实用意义。 参数( 模黧) 编码怒目前低码率语音编码研究中的重点,该方法建立发声 模型,然鬃提取表链模型特缓豹参数。这都楚基予语音信专具裔短辩平稳特瞧 的这个前掇,按短时帧分析得到语膏信号的模型参数,然艨传输或存锉这些参 数:在解码的时候,利用这些参数及采用的模型,合成得到再生语音信号。 在垦裁低磷率遘骞编码研究中,线性预测镶秘( l p c ) 是一辩魄较黪荸蠢效实 用的好方法,2 4 k b l s 的l p c * 1 0 e 编码方法已经被确定为美国联邦语音编码标 准( f s 一1 0 1 5 ) 。在研究基于合成分析( a b s ) 的线性预测编码( l p c ) 原理的基 獭上,针对舞傍遗一步降低l p c 谮音编码的犸率徽了避一多的分析和研究。并 照在线性预测编码( l p c ) 躲基础上对线性鞭测声玛嚣擞了改遴,实现了一穗 碣率程2 k b s 以下的变码率线性预测声码器。 本文的主要研究内容和工作如下: l 、根据语意信鼍形成过穰中,浊啻语音段鲍声遘特征变化较缓慢的特点, 引用似然比失真的概念来定义及定鬣的计算l p c 系数间的相似度并将这方法 纛用予l p c 语音编码中,该方法充分利用了语音信号前后的相关性,进一步除 去语誓信号孛静冗余度,麸焉有效瓣减少编码静璃率。 2 、l p c 编码在对l s p 系数进行矢羹量化的时候,其码本设计悬对所有的 添音榉本的l s p 矢量进行攘体设计,因丽需要较多的粥本和存储量。本文引入了分类分 段的矢量量他方法。在进行矢璧量他兹,先用v q 聚类蛇方法将参数矢量调练集会避雩亍分 类,然后再在每类矢量集合中将矢量分段成3 个低维矢量来进行矢量量化。可以在相同的 礴字情况下选到眈较好的董仡效采。 3 、在l p c 语音编码系统中利用a m d f 算法来做基音周期检测,本文对 a m d f 的算法进行了改进,通过建忘一个非连续的基音周期搜索表,利用表中 豹佳束遘露a m d f 计算检测萋音璃颓,实验结采表弼在不酶低鍪音周期检灏准 中国科学技术大学硕士论文摘要 确性的前提下大大的降低计算量。 通过引入上述方法,可以把l p c 编码的码率降低到大约1 6 k b s 。 关键词:语音编码似然比失真a m d fl p c 系数相似度 孛嚣辩学技术大学硕士论文a 转s t r a e f a b s 絮r a c t r e s e a r c ho n s p e e c h c o d i n g h a s c a u g h t m u c ha t t e n t i o ni nt h ef i e l do f s i g n a l p r o c e s s i n gr e c e n t l y 。t h et r a n s m i s s i o ne f f i c i e n c y & s t o r a g es p a c eo fs p e e c ha r e h i g h l yr e q u i r e dd u et o t h el i m i t a t i o no f 丘e q u e n c yr e s o u r c e s ,t h e d e v e l o p m e n to f c o m m u n i c a t i o nt e c h n o l o g y & v o i c em a l l s s i n c ec o m p r e s s i n g s p e e c hs i g n a l h a s b e c o m eo n eo ft h ee s s e n t i a lw a y st os o l v et h e s ep r o b l e m s ,t h er e s e a r c ho nl o wr a t e s s p e e c h c o d i n gh a so b t a i n e dp r a c t i c a ls i g n i f i c a n c e p a r a m e t e r ( m o d e l ) c o d i n g ,a st h ef o c a lp o i n to ft h ec u r r e n ts t u d yo nl o wr a t e s s p e e c hc o d i n g ,e s t a b l i s h e ss o u n d - p r o d u c i n gm o d e l sa n dp i c k su pc h a r a c t e r i s t i c p a r a m e t e r so f v a r i o u st o k e nm o d e l s b a s i n go nt h ep r e m i s et h a tt h es p e e c hs i g n a l sa r e s h o r ta n d s t e a d y ,m o d e lp a r a m e t e r s o ft h e s p e e c hs i g n a l s c a l lb eo b t a i n e d b y s h o r t - t e r mf r a m ea n a l y s i s t h e nt h e s ep a r a m e t e r sw i l lb ee i t h e rt r a n s m i t t e do rs t o r e d w h e ni tc o m e st od e c o d i n g ,w i t ht h ep a r a m e t e r s t h em o d e l sa d o p t e d ,t h es p e e c h s i g n a l sc 勰b er e p r o d u c e dt h r o u g hs y n t h e s i s i nt h ec u r r e n tl o wr a t e s s p e e c hc o d i n gr e s e a r c h ,l i n e a rp r e d i c t i o nc o d e ri s p r a c t i c a l l ys p e a k i n gas i m p l e & e f f i c i e n tm e t h o d l p c - 1 0 ea t2 4 k b sh a sb e e n a d o p t e da st h en e w u 。s 。f e d e r a ls t a n d a r d ( f s 一1 0 1 5 ) a f t e ra t h o r o u g hs t u d y i n go n p r i n c i p l e & i m p l e m e n t o fl p c b a s i n go n t h e a n a l y s i s b y s y n t h e s i s ( a b s ) m e t h o d ,w e w o r ko nt h ei n - d e p t ha n a l y s i sa n de x p l o r eo nh o wt of u r t h e rr e d u c et h eb i tr a t e so f l p c a l s oa l l i m p r o v e dp r e d i c t i o nc o d es y s t e mt h a tc a l lr e d u c et h eb i t r a t e si s p r o p o s e d t h em a i nc o n t e n ta n dr e s u l t so f s t u d yi nt h i sp a p e ra r ea st h ef o l l o w s : i 、i nt h ep r o c e s so ft h ef o r m a t i o no f s p e e c hs i g n a l s ,t h ec h a n g eo f t h ev o c a l t r a c tc h a r a c t e r i s t i c so fu n v o i c e ds o u n di ss l o w t h e r e f o r e ,t h ec o n c e p to fl i k e l i h o o d c a nb eu s e dt od e f i n ea n dq u a n t i t a t i v e l yc a l c u l a t et h e s i m i t a r i t yb e t w e e nl p c c o e f f i c i e n t s a n dt h i sm e t h o dc a na l s ob ea p p l i e dt ol p cs p e e c hc o d i n gs oa st o s o m e h o we f f i c i e n t l yr e d u c et h eb i tr a t e s t h i sm e t h o dm a k e sf u l lu s eo ft h e ! 墨楚兰垫垄茎兰鐾主燕壅皇! 坚! 璧! i n t e r r e l a t i o nb e t w e e nt h es p e e c hs i g n a l s ,d e c r e a s e st h er e d u n d a n c yi ns p e e c hs i g n a l s ; a n dr e d u c e st h eb i tr a t e se v e nm o r e 2 、w h e nl p cc o d e rd o e sv e c t o r q u a n t i z a t i o nt ol p c 愿s pe o e f f i c i e n t s t h e c o d e b o o kd e s i g ni sf o rt h eo v e r a l ls p e e c hs a m p l ev e c t o r s ,t h e r e f o r em o r ec o d c b o o k a n ds t o r a g es p a c ew i l lb en e e d e d i nt h i s p a p e ram e t h o do fv e c t o rq u a n t i z a t i o n a c c o r d i n gt oi t sc l a s s i f i c a t i o na n dp e r i o di si n t r o d u c e d b e f o r ev e c t o rq u a n t i z a t i o n , v qc l u s t e r i n gm e t h o di su s e dt oc l a s s i f yt h i sv e c t o r ,t h e nu n d e re a c hc l a s s i f i c a t i o n t h i sv e c t o ri sd i v i d e di n t ot h r e el o w - d i m e n s i o nv e c t o r sa n dt h e nv e c t o rq u a n t i z e d r e s p e c t i v e l y 骶l i sm e t h o du t i l i z e st h es p e c i a l t i e so f s p e e c hs e g m e n t sf r o mv a r i o u s c l a s s i f i c a t i o n sa n dc a na c h i e v eb e t t e r q u a n t i z a t i o n e f f e c tw i t ht h es a l l l ea m o u n t o f c o d ew o r d 3 、u s ea m d fi nl p c c o d i n gs y s t e mt oc a l c u l a t ep i t c hc y c l e i nt h i sp a p e r a m d fm e 氇o di s i m p r o v e da n d t h ec a l c u l a t i o nw o r k sa r e g r e a t l y d e c r e a s e d w i t h o u t i n f l u e n c i n g t h e a c c u r a c yo f p i t c hc y c l ec h e c k b yu s i n gt h em e t h o d sm e n t i o n e da b o v e ,t h eb i tr a t e so fl p cc o d e rc a nb e r e d u c e dt oa b o u t1 6 k b s k e yw o r d s :s p e e c hc o d i n g ,l i k e l i h o o dd i s t a n c e ,a m d f ,s i m i l a r i t yb e t w e e nl p c c o e 缳c i e n t s 中国科学技术大学硕士论文第一章:引言 第一章引言 1 1 语音编码及其发展概况 语音编码可以分为波形编码和声码器编码,或者分为非参数编码和参数编 码,参数编码有时也称为模型编码。自3 0 年代初提出p c m 原理和声码器两个 概念后,语音编码一直沿着这两个方向发展。 语音信号的波形编码是力图重建波形保持原语音信号的波形形状。它的特 点是将语音信号作为一般的波形信号来处理,适应能力强,话音质量好。但需 要编码的码率高。脉冲编码调制( p c m ) 、自适应增量调制( a d m ) 等都属于 这一类。这类方式的语音编码一般能在1 6 k b s 到6 4 k b s 的速率上给出较高的语 音编码质量。 同波形编码不同参数编码通过对语音信号特征参数的提取及编码,力图使 重建语音有尽可能高的可懂度,即保持原语音的语义,而重建信号的波形可能 会同原语音波形有相当大的差别。这类编码器的优点是码率低,其码率可以在 1 6 k b s 以下,甚至在2 4 k b s 左右。它的问题是合成语音的质量差,特别是自然 度较低。另外,这类编码器对讲话环境噪声较为敏感,需要比较安静的讲话环 境才能给出较高可懂度的重建语音。通道声码器、共振峰声码器以及目前广泛 使用的线性预测声码器都是典型的参数编码器。 还有一种编码方法是混合编码。混合编码同时运用了波形编码和参数编码 的技术,在中等码率时可产生较好的再生语音质量。图1 1 给出了三类语音编 码方法得到的比特率和再生语音质量的对比。 s p c 珏l q u i y b 玎r 髓( 袖l _ 棚 图1 1 三类语音编码方法得比特率和再生语音质量对比图 一一:m 嘲 中国科学技术大学硕士论文第一章:引言 在对语音编码的研究过程当中,人们一直对如何降低编码码率进行着各种 尝试,研究出了各种低码率语音编码系统。由于在语音信号中存在了很多冗余 信息,使得低码率语音编码成为可能:另外,由于人的听觉系统对不同频率段 声音信号的感知敏感度是不一样的,并且对频率的动态范围还有一定的限制, 语音编码就利用这些特点来压缩语音编码的比特率。 随着信息安全和通信技术的发展,以及频率资源越发紧张,因此在通信网 络的发展中解决信息传输效率是一个关键又极其重要的问题。解决这一问题的 一个主要方法就是压缩表示语音信号的比特率。当前,无线通信、有声邮件等 一些相关应用的迅速发展,也对语音编码提出了更高的要求;另外,在存储大 量语音文件的时候,为了节省存储空间,也需要大幅度降低语音编码的比特 率,因此低码率语音编码成为当前语音编码研究的热点。目前,语音编码在 1 6 k b j 的码率以上都能得到质量非常好的再生语音,但随着码率的降低,再生 语音的质量也随之降低,因而在更低码率( 4 k b s ,甚至是2 4 胁j ) 下,如何获得 较高可懂度的语音成为研究中的一个重要方向。 1 1 1 衡量语音编码技术的三个指标 1 码率一般用一秒钟语音所需的比特数( b s ) 来表示。压缩是语音编码的 主要目标和任务,所以码率是衡量一个语音编码技术的重要指标。语音编码的 码率从1 9 7 2 年的6 4 k b s 的p c m 编码,1 9 8 4 年的3 2 勋s 的d p c m 编码,到1 9 8 8 年g s m 组织公布的1 3 k b s 和1 9 8 9 年美国蜂窝通信工业协会( c t i a ) 公布的北美 8 k b s 数字移动通信语音编码标准再到最近的2 4 k b j 的新的美国联邦标准,压 缩了二十多倍。 2 再生语音质量在给定的比特率下,经过编码和译码后所产生的再生 语音信号的质量。m o s 分( m e a no p i n i o ns c o r e ) 是一种常用的主观判定方法。用 平均主观评价的打分来度量,用五级确定语音质量的等级,有优 ( e x c e l l e n t ) 、良( g 0 0 d ) 、中( f a i r ) 、差( p o o r ) 、劣( b a d ) 五级。但在低比 特率语音编码中,常用两种方法来衡量再生语音的质量:音韵字可懂度( d r t ) 和满意度测量( d a m ) ,后者是再生语音质量可接受程度的一种度量。 3 编码复杂度一种语音编码技术最终要在实际的通信系统中运用,必 须要求其编码和解码能实时进行,这就要求编解码的复杂度不能太高。增加算 法复杂程度可以提高语音编码质量,但往往也伴随着增加编码解码的延时。在 实时语音通信系统中,语音编码解码的延时同线路传输延时的作用一样,对通 话质量有着很大的影响。 2 中国科学技术大学硕士论文 第一章;引言 在实际的编码系统中,这几个指标是互相矛盾的,很难做到使这三个方面 同时达到最优。通常只是强调某一方面,而同时适当兼顾其它方面。 1 2 低码率语音编码及其研究现状 目前,1 6 k b s 和8 k b s 语音编码方法已经标准化了,能够提供通信质量的 再生语音。现在,低码率( 4 8 k b s ) 语音编码正在向标准化的方向发展,这方 面的主要方法还是码激励线性预钡i ( c e l p ) 编码。而目前语音编码算法的研究主 要集中在更低的码率上,如2 4 k b j 和1 2 k b s 。其中2 4 k b s 的l p c 1 0 e 语音 编码已经被定为美国联邦标准f s 1 0 1 5 1 1 1 。 近年来,这方面研究主要有4 种方法:多带激励编码( m b e ) 【2 卅,正弦变换编 码( s t c ) 【5 埘,基于线性预测原理的编码( l p c ) 【7 也l ,和波形插入编码( w i ) 【1 3 2 1 。其 中m b e 和s t c 是基于正弦分析合成模型,w i 是基于正弦分析合成模型和线 性预测模型的混合模型,l p c 是基于二元激励的线性预测模型。 1 多带激励( m b e ) 编码 基于线性预测模型的语音编码方法的一个固有的缺点就是在没有附加预测 残差信息时,再生的语音信号质量很差。预测残差可以看成是对线性预测不准 确的一个修正。丢掉这个残差,再生的语音很刺耳,有很强的机器昧。因此, 高质量的语音编码都要传送预测残差,不同编码系统的最基本的不同点就是用 不同的方法来传送预测误差。在低于8 k b s 的线性预测编码中,最常用的方法 就是把预测误差分成一个个小段,即矢量,然后通过一个码本搜索最佳的匹 配,然而,这个搜索计算量比较大,而且当码率降到4 k b s 时,再生语音质量 很差。 m b e 是由d w g r i m n 于1 9 8 7 年在m i t 提出的。m b e 是不需要传预测误 差的参数编码方法,它工作在频率域。m b e 将每帧语音分成不同的频率带,在 每个频率带上做清浊音判决,每一帧的激励信号是周期脉冲和自噪声的混合, 由于每个频率带上的混合比例不同,所以能产生较高质量的再生语音,并且, m b e 对环境噪声有很强的鲁棒性。 2 正弦变换编码( s t c l 正弦变换编码的基础是周期信号的傅立叶变换,把语音信号分解成为一个 序列为一定幅度、频率和相位的正弦信号,这种方法可以重建出高质量的包括 中国科学技术大学硕士论文第一章:引言 语音、音乐等等的各种声学信号。基于正弦变换的语音编码方法中,将语音信 号分解成基音周期的及其谐波分量,主要量化正弦信号的幅度和相位。最小相 位正弦谐波编码方法,避免了量化相位信息,可以在4 8 k s 左右的比特率上再 生出较高质量的语音。 3 波形插入( w i ) 编码 波形插入方法是由k l e i j n 博士提出的”,最初是为了提高码激励线性预 测( c e l p ) 的语音质量,称为原波形插入算法( p w i ) 。这种算法在浊音段,每 隔一定的时间( 2 0 m s 3 0 m s ) 就提取并传送一个周期的原始语音波形,在没有传送 的部分,则采用线性插值的方法得到波形。而在清音段,仍然用码激融的方 法,因此,p w i 方法只能和c e l p 相结合,在3 o k b s 4 o k b s 的码率上得到 很好质量的语音。 p w i 编码在码率降到3 0 k b j 以下的时候,再生语音质量会恶化,于是又出 现了一种基于特征波形分解【2 1 l 的语音编码算法。在这种算法中,用一系列不断 演化的特征波形( c h a r a c t e r i s t i cw a v e f o r m ,简称c w ) ,在浊音段,特征波形演化 较慢,在清音段,特征波形演化较快。通过对两种语音分别进行处理,能使再 生语音质量在2 4 肋j 的码率上比p w i 方法有明显的提高。 4 基于线性预测原理o l p c ) 的语音编码 l p c 声码器假定当前语音样点值可以由前面若于个语音样点值的线性组合 加上预测误差来表示,从而再生语音可以由该误差信号激励一个全极点合成滤 波器得到。通常用周期信号或者白噪声去激励一个全极点的合成滤波器。也就 是二元激励。 在l p c 原理的基础上发展出了很多编码系统如m e l p ,m p e l p 和c e l p 等 等。它们在线性预测的原理和基础上考虑了其它各种因数形成了自己的发展。 同时人们对l p c 声码器本身的研究也从未停止过。随着其它相关技术的发展, 如矢量量化技术的发展,计算机速度的提高,以及人们对发声原理认识的深 入,l p c 声码器同样也得到了发展。 矢量量化技术( v q ) 充分利用了语音信号在频域上的冗余度,使得l p c 声 码器的码率得以进一步的降低;与之对应,也可以充分利用语音信号在时域上 的冗余度来降低码率。 4 中国科学技术大学硕士论文第一章:引言 1 3 本文的主要研究内容 本文以l p c 语音编码方法为基础,研究进一步降低码率的方法。语音信 号中存在着大量的冗余信息,这是低码率语音编码得以实现的前提。语音编码 的任务就是最大限度的除去这种冗余。在所有传统的基于l p c 分析一合成编码 方法中,所有的参数都是逐帧传送的,每帧的码率都是固定的。这种做法的一 个不足之处就是没有考虑到语音的浊音信号在产生过程中,声道特性变化缓慢 这一特点,本文就是从这个方面进行考虑,研究表征声道特性的l p c 系数之间 的短时相似性,进一步除去特征参数间的冗余度,从而在2 4 k b s 的l p c 声码 器的基础上进一步降低码率。 另外,在基于l p c 的分析一合成编码方法中,对于用来构成合成滤波器的 l p c 系数采用矢量量化的方法,这种量化方法可以大大减少表示l p c 系数的比 特数。但是在传统的方法中,其码本设计是对所有的语音样本的l p c 矢量进行 整体设计,得到一个单一的码本。这样做没有考虑到不同语音段的特点,不但 量化效率受到限制,而且码本一般较大,需要较大的存储空间和较大的搜索 量。 因此,论文的工作内容之一是利用浊音语音段的声道特征变化缓慢的特 点,找到相邻帧之间的相似性;二是利用各语音段的不同特性,对l p c 系数分 类,对l p c 系数分别进行矢量量化,构成不同的矢量量化码本,以减小存储量 和搜索量,并提高量化和执行效率;三是对a m d f 算法进行改进,减少a m d f 算法进行基音周期检测的计算量。本文的主要工作就是针对这三个问题展开 的。同时,对l p c 的声码器的二元激励进行改善,使激励源更加精细,从而来 改善重构语音的质量。 首先,介绍了利用似然比失真测度来比较和衡量l p c 系数的相似度,l p c 系数间的相似度可以比较好的表现不同语音段声道特征的相似性。对于两组相 似度较大的l p c 系数,用相同的激励信号去激励由它们构成的合成滤波器,所 得的输出波形很相似。而对于声道特征变化比较缓慢的浊音发音,其相邻帧波 形的变化主要反映在激励信号上,往往它们的l p c 系数有较大的相似性。这 样,当前帧语音信号的l p c 系数与前面相近的某一帧语音信号的l p c 系数的相 似度在某一阈值内的时候,可以不用传送该帧的l p c 系数,而只传激励信号参 数,在解码的时候利用前面的那帧语音信号的l p c 系数替代该帧语音信号的 l p c 系数,合成的语音与用该帧语音的l p c 系数为参数合成的语音信号仅有很 中国科学技术大学硕士论文第一章:引言 小的差别,对再生语音的可懂度不会带来较大的影响,但是可以大大的降低码 率。 其次,提出了基于分类的l p c 系数矢量量化方法。先用v q 聚类方法把 l p c 系数分成3 类,然后对每一类分别进行矢量量化,构成3 个不同的矢量量 化码本。量化的时候,先确定待量化矢量的所属类别k ,然后选择该类所对应 的码本进行量化;将这个矢量的类信息k 和它在该类码本中的码字编号v 组合 起来,构成该矢量量化后的编码;解码的时候,根据类信息世选择码本,在该 码本中找到编码为v 的码字,即为该编码解码后的矢量。这种方法克服了传统 矢量量化对所有的矢量用统一的码本进行量化的问题,利用了不同语音段的特 点,用多个尺寸较小的码本代替单的尺寸较大的码本。在原有的矢量量化比 特位数没有太大变化,码本搜索量基本不变的同时,将实际的码本空间变为原 来的三倍,随着实际码本空间的增大,对于矢量量化的质量有很大的提高。 上述两种方法在l p c 声码器中的引入,通过实验证明是可行的,可以把 l p c 编码的码率降低到1 6 k b s 以下。另外,本文还介绍了一种改进的a m d f 算法来检测基音周期,使得传统a m d f 算法的计算量降到了原来的一半,而且 并不影响基音周期的检测的准确性。其主要目的是为降低语音编码的计算量, 减小复杂度,减小编码延时。 6 中国科学技术大学硕士论文 第二章:l p c 语音编码的原理和基础 2 1 引言 第二章l p c 语音编码的原理 语音编码可以分为波形编码( w a v e f o r mc o d i n g ) 和参数编码方式。波形编码 是一种能表现波形的编码方法,从本质上来说波形编码其实是对语音信号波形 的量化。而语音信号的参数编码方式则是根据语音的生成模型,并通过一定的 分析方法,将产生语音的过程转换成参数表征的生成模型来表示,在合成语音 时,是采用由这些参数形成模型来生成语音的。因此,对于分析合成的语音参 数编码方式,其分析方法是十分重要的,通常称为合成分析方法( a n a l y s i s b y s y n t h e s i s ) 。在这种方法种,预先假定信号的生成模型,这种模型的生成值与观 察值之间存在误差,通过反馈控制,可以得出使其误差为最小的模型参数,并 把这些参数定为该模型的特征参数。所以在a b s 中,重要的是语音生成模型 的建立、选择,误差为最小的评价尺度和算法的选择等等。实际上,a b s 这 种处理信号的方法不仅适用于从声音中提取参数,还适用于其它许多生成模型 的场合。 从人的听觉器官的感受来看,人所能听到的声音的动态范围和带宽等是受 到限制的。另外,从语音信号产生的物理机理和语言结构的性质可以看到,语 音信号中存在较大的冗余度,因此,可以利用这些冗余度和语音生成与听觉上 的制约,能够把原始语音信号中的冗余信息进行压缩,能够忽略对人类听觉感 受接受范围之外的信息,只表现语音信号的必要信息,从而对语音编码实现高 效率传输和低容量存储。 对于人类发声机制研究后人们提出了多种语音生成模型的假设,因而也有 多种相应的语音分析合成系统,例如基于带通滤波器组的通道声码器,共振峰 声码器,以及基于线性预测的l p c 声码器。 本文主要对基于线性预测原理的l p c 声码器进行讨论,线性预测( l p ) 的 原理是假定当前语音样点值可以由过去若干个语音样点值的线性组合加上预测 误差表示。从l p c 的原理可以看到再生语音可以由该误差信号激励一个全极点 合成滤波器得到,其l p c 原理的模型如图2 1 。 2 2 语音形成机理及其特点 7 中国科学技术大学硕士论文 第二章:l p c 语音编码的原理和基础 为了建立语音的生成模型所以必须要研究语音信号是如何从人的发声器官 产生的,有哪些器官在决定语音的发生和变化,以及要了解它们都有那些重要 的性质。同时也应该知道在发声形成的过程中,语音在不同阶段有哪些基本单 元组成,不同阶段过程中不同发声器官所起的作用。在这些基础上,建立一个 简单、实用和有效的语音生成模型。同时在研究语音编码的时候,要根据语音 信号本身的特性,对语音生成模型和语音信号的特点进行分析,找出适合语音 压缩的编码方法。图2 - 2 给出了人类物理器官产生语音信号的结构模型示意。 人的发声器官有肺、气管、喉、咽、鼻腔、口腔等构成,它们作为一个整 体,形成连续的管道。喉的上面部分称为声道( v o c a lt r a c t ) ,通过腭、舌、嘴唇 等的动作,可以产生各种形状的变化。当由腹肌压迫隔膜,从肺部压出的空 气,经由气管到达喉部的声门,冲击声带( v o c a lc o r d s ) ,再通过声道,引起气 输入语音s ( n ) 编码器示意图 匝亘至h 矿臣堕丑铲建语音 解码器示意图 图2 1 流和声带的相互作用,便形成了声音。因此,声音的形成过程可以分为三个阶 段:气流的产生、调音、发出。其中,从肺部来的气流,通过声带间的可变空 隙( 声门) ,产生规则的气流,就形成了人耳可以听到的声带声源( g l o t t a l - s o u r c e ) 。调音是由声道,口腔,唇,鼻等各个部分的动作共同完成的,通过改 中国科学技术丈学碛士论文 第二章:l p c 语音编码的原理和基础 变鼹调整声道、墨黢,艨型秘鼻黢毂形状,以产生各转冬挂戆声音,然聪,搀 载有语义信息的声音发送传播出去。 根据语音产生方式的不间和语音本身的特点,一般将它们大致分为三类 啬:注音( v o i c e d ) 、清音( u n v o i c e d ) 、爆破音( p l o s i v e ) 。 浊音鲍特点是:发声时声豢期互靠近,这个时候,耀片声带之间鲍空隙f 声 门) 变成一条窄缝,当气流通过这个窄缝时,气流的压力变小,从而使两片声带 完全闭合便气流不能通过,在气流阻断时压力恢复正常,从而使声带间的缝隙 荐次形成。傻气流邋遗,发声薅声遂苓受羁显静阻挡。这稀声门一开一会静遂 程是周藤复始地进褥鳃,从露形成一串周期性脉冲气流送入声邋。这个脓冲审 的周期就是语音的綦音周期( p i t c h ) ,对于女性和小孩,他们的基因周期比较 小,也就是说他们的声门开合比较快,而对于成年男性,其基音周期相辩比较 大。 瀵啻发声避候的特点是:声豢是不振动的,始终处予打开状态。它是由来 自肺部的高速气流通过受阻的声道而产生的,这类谮音信号没有明显的周期 性。 爆破啻慰是鑫空气攫力在完金关溺翡声道嚣袄聚增鸯耩,簌声遂突然打开 时,这股气流突然被释放后产生的。 , i一 tj 一_ v o c a l c 岫 奉 a i r 图2 2 语袁信号产生的物理模型 s p e e c h 9 中国科学技术大学硕士论文第二章:l p c 语音编码的原理和基础 在上面的三大类发声之外还有一些不在这三类范围之内,它们属于混合类 型,比如浊擦音( v o i c e df r i c a t i v e ) ,发音时,声带会振动,同时声道受阻。在 清、浊音的过渡段,语音信号会出现比较复杂的变化。 声音的强弱由来自肺部气流量的大小决定。所发的声音是由声道的形状决 定,改变声道的形状,就会产生不同的声音。因为语音本身具有长时随机性, 短时平稳性,所以声道特性的变化也是如此,就短时而言声道相对变化比较缓 慢,一般在1 0 r e s 1 0 0 m s 的量级,所以可以在短时内把语音信号和声道变化看 成是一个准平稳过程。 2 3 语音信号产生的数学模型 在研究语音信号产生的时候,将问题作一定的简化,把语音信号产生的物 理模型抽象为一个数学模型,寻找出语音信号产生的物理模型和抽象的数学模 型各个部分之间的对应关系。并通过对这个抽象数学模型的分析来研究如何对 语音信号进行编码。因此建立一个离散时间系统的语音产生模型来模拟人的发 声过程,对于研究语音信号尤其对语音编码来说是非常重要的。通过对上面语 音产生的物理模型分析知道,语音是由气流脉冲通过声道而产生的,这个模型 应该包括两个部分:激励源和声道模型。所以对语音产生的物理模型在整体上 可以用如图2 3 所示的数学模型来表示: 周期脉冲 白 图2 3 语音信号产生的数学模型 音 在整体上把这个模型的数字语音信号看成是一个激励信号为周期脉冲或者 是自噪声经过线性合成滤波器的输出。其各个部分与语音产生的物理模型的对 关系如下: 1 0 中国科学技术大学硕士论文第二章:l p c 语音编码的原理和基础 声道何( z ) ( l p c 滤波器) 空气u ( n ) 一( 激励信号) 声带振动v ( 周期脉冲) 声带振动周期r ( 基音周期1 清音u v ( 白噪声) 空气量g ( 增益) 从图2 3 可以知道激励源分为浊音和清音两个部分,按照浊音、清音开关 所做的判决来决定语音的激励。在浊音情况下,激励信号由一个周期脉冲器来 产生。所产生的序列是一个周期为r 的冲击序列,即每隔丁就有一个样值为1 , 而其余的值都为0 。在清音情况下,激励信号是由随机高斯白噪声发生器产 生。该随机噪声的均值为0 ,方差为1 。- ( z ) 为合成器,在l p c 的线性分析 中,它表示的是一个全极点的合成滤波器。于是,表示这个模型的所有特征参 数为:h ( z ) 合成滤波器参数、g 增益参数、u 清浊判决参数和t 基音周期参 数。根据语音信号的短时平稳性,这些特征参数一般1 0 3 0 m s 变化一次,假设 每个短时帧( 2 2 :5 m s ) 变化一次,在采样率为8 0 0 0 h z 时,一帧语音就是1 8 0 个样点。于是,l p c 模型中就把每帧语音信号表示为: s = ( s ( 0 ) ,j ( 1 ) ,s ( 2 ) ,s ( 1 7 9 ) ) 把给定特征参数,要求s 的过程叫语音合成,用标准的滤波器算法来实 现;而给定s 来求语音信号的特征参数过程叫语音分析。显然,分析是实现合 成的基础。 2 。4 线性预测编码( l p c ) 分析 线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干个语 音的抽样来线性逼近。并通过使实际语音的抽样值和线性预测抽样值之间的差 值平方和( 在一个有限间隔上) 达到最小值,能够确定唯一的一组预测器的系 数( 预测器系数是线性组合中所用的加权系数) 。 由线性预测原理【4 2 i 可以知道: 原始语音信号如下表示: 【,s ( n ) ,s ( n - 1 ) ,s ( n - p ) ,】= s( 2 1 ) 其中,j ( 聆) ,l l ( 一o o ,+ ) 是各个样点值。 这样,对于语音信号,可以从过去的样点值线性预测到现在的样点值 j ( 门) : 中国科学技术大学硕士论文 第_ = 章;l p c 谱音编码的原理和基础 ;( n ) = 一口,s o o ( 2 2 ) i = l 由式( 2 1 ) 和式( 2 2 ) 黉i j 有: s ( 精) 一毒( 栉) = # ( 范)( 2 。3 ) 于是,s ( 姐) 可表示成一下形式: p s ( 野) + a , s ( n - i ) = # ( 磅 ( 2 4 1 1 产 令: 彳( z ) = q z “,箕中a i 为实数,a o = 1 。 l _ 0 所以,s ( n ) 可以看成由信号p ( 一) 激励一个全极点滤波器产生。于是线性预测编 码( l p c ) 分析其实就是个求解滤波器系数的问题。其中假设一个已知系列j ( h ) 是峦一个来懿痔列# ( 国激融一个来知系统产生韵。亩式( 2 可知,这个未知系 统是一个线性慰不变鲍全极点系绞,如图2 4 鼹承。 霜2 4l p c 势桥系统 这样求解系数就归缩为鲡何确定模型的参数a ,。如采有一种算法,能根据 已舞熬s ( 拜) i f 确煞 砉计塞a 。,那么这个来辩系统量( z ) 馒酉隶褥。由于 量( z ) 曩( z ) = s ( z ) ,擐援h ( z ) 帮s ( z ) 使霹求褥嚣( z ) 。 为了寻找别一个高效的求解算法,对这个模型加上一个限制。对未知序列 e ( z ) 加以约束,将之改写成g e ( n ) 的形式。其中口( 一) 是一个周期脉冲序列或者 高斯自噪声序捌。g ( 竹) 这个周期脉冲序捌可以表示为: 口( 一) = 万( 竹一 ( 2 5 ) 当n = 0 时,占( h ) = l ;而对于其它的n t 直a ( n ) 全为o 。n ,是脉冲序列的周 期。当e ( n ) 为高斯囱噪声时,其均值为0 ,鼠其宙相关函数满足: 震。( d = 艇( 栉) 口( n 十,) 】= 8 ( 0( 2 6 ) 中霉秘学技术大学骥圭论文第二章:l p c 谱音编璐的琢瓒帮基融 系数g 是一个非负实数,通过它的改变来控制系统输出序列s ( n ) 的幅度的大 小。 通过上面的条件假设,就得到了一个适用于语音信号处理的模擞。也就怒 说已知一个序列s ( 摊) ,以及礁定它是出一个震熬躲淬侉列或者褰簸鑫噪声序列 激励一个全极点滤波器所构成的模型产生,同时在“最小均方误差”评馀凇则下 求解出模型的参数( p 以及a 。一a ,) 、激励信号e ( n ) 和增益系数g 的解。 在序列s ( n ) 中侄取一个时刻h ,假设在时刻坩以前的p 。个样点上语音信号 的值s ( n 一1 ) s ( n 一2 ) ,s ( n p ) 芭知,而h 时刻的语音样点值采知。现在用这 尹。个榉点上语音信号豹傻来蓣溅嚣时粼豹语音襻熹值。翔采用;( 珂) 采表示这个 预测毽,那么它可以写成: i ( 蟛= 锈s ( n - i ) 疆。7 ) 其中a ,都为实数,称作预测系数。蔼颈铡值;( 释) 与真实氆s ( n ) 之间豹误麓称为 鞭测误差,翅嚣( 拜) 袭示,e ( n ) 援- f 式计算: 占( 托) = s ( 样) j ( 彩= s ( 力+ 蜃,s ( n - i ) ( 2 8 ) 由于s ( n ) 蹩一个随机序列,所以e ( n ) 也是一个随机序列。可以用e ( n ) 的均方值 仃。= e 1 6 2 ( n ) 】采衡豢线戆预测豹霞量。最然,吼越接近0 ,这个线性预测的准 确度在均方误茇下越好。为了计算戆方便,般耀式( 2 9 ) 来代替计算孛豹均 方值。这时,拶,2 可表示为: 2 = 譬2 ( 拧) ( 2 9 ) 对于一个特定语音黟列,莎,2 鼹取傻取决予p 彝冬除系数a i 。鳐果黢找到一个 p 和一缉系数,使尊。2 达到最小僮,那么这维系数就是最佬预测系数,用鑫;表 示。可以证明,如果语音信号是由图2 4 所示的全极点模型产生的,则最佳预 测阶数p = p ,最佳预测系数a 。= a 。,f - 1 一尸。证明如下,按照图2 4 所产生 的语音信号s ( n ) 可表示为: s ( 行) = 一d 。j o f ) + ( h ) ( 2 1 0 ) 将式( 2 1 0 ) 代入式( 2 8 ) 在代入式( 2 9 ) 就可以得到吼2 的下列表达式: :l 量a , s 趣一母一杰q 。积一秘+ ( 磅 l :状撑) 苫( 摊) 国1 1 ) 中国科学技术大学硕士论文 第二章:l p c 语音编码的原理和基础 其中,( 玎) = q s ( 珂一f ) 一口j s ( n - i ) ,g ( n ) = g e ( n ) 。 l = li = i 这样,就可以得到巳2 = f 2 ( h ) + 2 ,( n ) g ( ,1 ) 十9 2 ( 疗) ,由于误差p ( n ) 是方差盯2 ,均值为0 ,互不相关的随机变量,即序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特别的月饼特别的中秋作文600字9篇
- 2025年济宁金乡县事业单位公开招聘工作人员(教育类)(39人)模拟试卷及答案详解(历年真题)
- 2025年数控刃磨床项目申请报告
- 2025海南经贸职业技术学院考核招聘高层次人才40人考前自测高频考点模拟试题及一套答案详解
- 2025年三环集团社会招聘模拟试卷及答案详解一套
- 2025湖南泸溪县汇金产业投资集团有限公司招聘工作人员拟聘用人员考前自测高频考点模拟试题及答案详解(历年真题)
- 2025年辉南县补录1名乡镇、街道派驻消防文员模拟试卷(含答案详解)
- 2025年福建省泉州市华侨大学分析测试中心招聘模拟试卷含答案详解
- 2025广东广州市筑业城建有限公司招聘工作人员、人员模拟试卷及答案详解(夺冠系列)
- 2025-2026学年江西省赣州市部分学校高一上学期入学测试英语试题(解析版)
- 2024~2025学年内蒙古自治区通辽市九年级上学期期末语文试卷
- 临床药师抗感染病例讨论
- 电子书阅读器使用教程
- JJG 597-2025 交流电能表检定装置检定规程
- 2025年特种设备无损检测人员超声Ⅱ级(UT-2)取证培训大纲
- 2025老年康复科护理服务计划
- 应急消防疏散培训课件
- 锚杆支护工安全考试试卷及答案
- 心理学研究方法(第2版)课件 王轶楠 第4-7章 完成研究过程-走上国际学术舞台
- 统编版语文五年级上册 第6单元 教学设计
- 统编版2024三年级语文上册第三单元复习 课件
评论
0/150
提交评论