![(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/0eebd55c-34b6-4219-ac31-afca12c91d83/0eebd55c-34b6-4219-ac31-afca12c91d831.gif)
![(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/0eebd55c-34b6-4219-ac31-afca12c91d83/0eebd55c-34b6-4219-ac31-afca12c91d832.gif)
![(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/0eebd55c-34b6-4219-ac31-afca12c91d83/0eebd55c-34b6-4219-ac31-afca12c91d833.gif)
![(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/0eebd55c-34b6-4219-ac31-afca12c91d83/0eebd55c-34b6-4219-ac31-afca12c91d834.gif)
![(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/0eebd55c-34b6-4219-ac31-afca12c91d83/0eebd55c-34b6-4219-ac31-afca12c91d835.gif)
已阅读5页,还剩76页未读, 继续免费阅读
(电路与系统专业论文)嵌入式变速率语音编码中线性预测系数的矢量量化研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 网络技术的迅猛发展使得以分组交换为基础的口电话技术得到了越来越广 泛的应用。如何减小分组丢失对接收端合成语音质量的影响,已经成为语音编码 领域亟待解决的问题。在此背景下,嵌入式变速率语音编码方法应运而生。国际 电信联盟( i t u t ) 于2 0 0 5 年提出了制定最新国际语音编码标准g v b r 的计划, 使嵌入式变速率语音编码成为近两年来语音编码领域的研究热点。 嵌入式变速率语音编码多采用码激励线性预测语音编码技术,这使得线性预 测系数的量化成为至关重要的环节,量化的效果将会直接影响到整个编码器的性 能。为此,本文就线性预测系数的矢量量化技术展开了深入研究。 线性预测系数在量化之前,通常要转换成为线谱频率参数或导抗谱频率参 数。在线谱频率参数矢量量化方面,本文提出了一种改进的基于哈德码变换的码 书快速搜索算法,使矢量量化中码书搜索的速度相对于全搜索算法有了很大的提 高。在导抗谱频率参数矢量量化方面,本文针对现有量化算法在处理语音分组丢 失时效果不佳的问题,结合嵌入式变速率语音编码算法的特点,提出了三种应用 于宽带导抗谱频率参数的量化方案。首先提出了一种改进的应用于宽带导抗谱频 率参数量化的转换分类分裂矢量量化方案。该方案采用无记忆的量化方式,在编 码比特数为4 2 b i t s f r a m e 时达到了透明量化的性能,但其唯一的缺点就是所需的 码书存储量较大。针对此问题,本文又提出了一种转换分类乘积码锥形矢量量化 方案。该方案在量化精度与复杂度之间进行了折衷,具有低复杂度、低存储的特 点,在编码比特数为4 6 b i t s f l a m e 时达到了透明量化的性能。但是,考虑到应用 于嵌入式变速率语音编码器中的导抗谱频率参数量化方案要在有丢失帧与无丢 失帧时都具有尽可能好的量化效果,本文最后提出了一种各维非等系数帧间预测 分裂矢量量化方案。该方案在无丢失帧的情况下用4 6 b i t s f l a m e 进行量化即可达 到透明量化的性能,且在有丢失帧的情况下错误的延续性较小,实现了平衡有丢 失帧与无丢失帧时量化性能的目的。 最后,将本文提出的4 6 b i t “f i a m e 各维非等系数帧间预测分裂矢量量化方案 应用到一种8 3 2 k b s 嵌入式变速率语音编码器中。此编码器由本人所在的北京 北京工业大学工学硕士学位论文 工业大学语音与音频信号处理实验室开发,并作为g v b r 候选编码器之一,由 华为公司提交给r r u t 。实验结果表明,在纯净语音情况下该编码器基本达到了 i t u t 对g v b r 候选编码器各层合成语音质量的要求。 关键词:嵌入式语音编码;线性预测;导抗谱频率参数;矢量量化 a b s t r a c t i nt h el a s ts e v e r a ly e a r s ,w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g y , t h e r ei sa t r e m e n d o u si n t e r e s ti nt h es o - c a l l e d i pt e l e p h o n y ,i e ,t e l e p h o n ec a l l st r a n s m i t t e d t h r o u g hp a c k e t - s w i t c h e dd a t an e t w o r k se m p l o y i n gt h ei n t e m e tp r o t o c o l ( i p ) h o wt o r e d u c et h ee f f e c to fp a c k e tl o s s e si ns y n t h e s i ss p e e c hq u a l i t yh a sb e c o m eam o r e i m p o r t a n ti s s u ei ns p e e c hc o d i n g t h em o s ta v a i l a b l ew a yi st ou s ee m b e d d e dc o d i n g a l g o r i t h m s i n t e m a f i o n a lt e l e c o m m u n i c a t i o n su n i o n ( r r u ts g1 6 ) i ss t u d y i n ga n e ws p e e c hc o d i n gs t a n d a r df r o m2 0 0 5 ,c a l l e de v - v b r ( e m b e d d e dv a r i a b l eb i t r a t e ) r e c e n t l y , t h e r ei sag r e a ti n t e r e s ti nd e v e l o p i n ge m b e d d e dv a r i a b l eb i tr a t e s p e e c hc o d e r s a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o ns p e e c hc o d i n gt e c h n i q u ei sa l w a y su t i l i z e d i ne m b e d d e dv a r i a b l eb i tr a t es p e e c hc o d e r , a n dt h eq u a n t i z a t i o nf o rl i n e a rp r e d i c t i v e c o e f f i c i e n t sb e c o m e sa l li m p o r t a n tp r o b l e mf o rt h i ss c h e m e t h ep e r f o r m a n c eo ft h e q u a n t i z e rf o r l i n e a rp r e d i c t i v ec o e f f i c i e n t sw i l l a f f e c tt h ew h o l ec o d e c s o m e r e s e a r c h e sf o c u s e do nv e c t o rq u a n t l z a f i o nt e c h n i q u e sf o rl i n e a rp r e d i c t i v ec o e f f i c i e n t s i ne m b e d d e dv a r i a b l eb i tr a t es p e e c hc o d i n ga r es h o w ni nt h i st h e s i s b e f o r eq u a n t i z a t i o n ,l i n e a rp r e d i c t i v ec o e f f i c i e n t sa r ea l w a y st r a n s f o r m e di n t o l i n e a rs p e c t r a lf r e q u e n c i e s ( l s f ) p a r a m e t e r so ri m m i t t a n c es p e c t r a lf r e q u e n c i e s ( i s f ) p a r a m e t e r s a ni m p r o v e df a s tc o d e b o o ks e a r c ha p p r o a c hf o rv e c t o rq u a n f i z a f i o no f t h el s fp a r a m e t e r sb a s e do nh a d a m a r dt r a n s f o r mi sp r e s e n t e di nt h i st h e s i s t h e e x p e r i m e n tr e s u l t sc o n f i r mt h a tt h ec a l c u l a t i n gc o m p l e x i t yo ft h ep r o p o s e da i g o r i t h m i sl o w e rt h a nc o n v e n t i o n a lf u l ls e a r c ha l g o r i t h m a i m e da tt h ep r o b l e m so fp r e v i o u s q u a n f i z a f i o na l g o r i t h mi np a c k e tl o s s e sa n dt h ec h a r a c t e r i s t i c so fe m b e d d e dv a r i a b l e b i tr a t es p e e c hc o d i n g ,w ep r o p o s e dt h r e eq u a n t i z a t i o ns c h e m e su s e df o rq u a n t i z i n g t h ei s fp a r a m e t e r so fw i d e b a n ds p e e c h f i r s t l y , a l li m p r o v e ds w i t c h e ds p l i tv e c t o r q u a n t i z e ru s e df o rq u a n t i z i n gt h ei s fp a r a m e t e r so fw i d e b a n ds p e e c hi sp r o p o s e di n t h i st h e s i s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sm e m o r y l e s sq u a n t i z a t i o ns c h e m e a c h i e v e st r a n s p a r e n tc o d i n ga t4 2 b i t s f r a m e b u tt h em e m o r yf o rt h ec o d e b o o ks t o r a g e l l i 北京工业大学工学硕士学位论文 1 i i i ii i i | e 目g e ! ! ! j = ! ! ! = s ! j ! ! j g ! ! ! 自! ! ! ! ! ! 目e | 目! ! = 目! ! 日e ! e ! ! ! 暑 i st o ob i g a i m e da tt h i sp r o b l e m ,an e ws w i t c h e dp r o d u c tc o d ep y r a r n i dv e c t o r q u a n t i z e ri sp r o p o s e d t h ec h a r a c t e r i s t i c so ft h i sa l g o r i t h ma r el o wc o m p l e x i t ya n d l o wm e m o r y e x p e r i m e n t a lr e s u l t ss h o wt h a t t h i sq u a n t i z a t i o ns c h e m ea c h i e v e s t r a n s p a r e n tc o d i n g a t 4 6 b i t s f r a m e c o n s i d e r i n gt h es c h e m eu s e df o rq u a n t i z i n g w i d e b a n di s fp a r a m e t e r si ne m b e d d e dv a r i a b l eb i tr a t es p e e c hc o d i n g , t h eq u a n t i z e r m u s th a sg o o dp e r f o r m a n c eb o t hi ng o o da n db a df r d l n e s f i n a l l y ,w ep r o p o s e dan e w u n e q u a lc o e f f i c i e n ti n t e r f r a m ep r e d i c t i v es p l i tv e c t o rq u a n t i z e r e x p e r i m e n t a lr e s u l t s s h o wt h a tt h i sq u a n t i z a t i o ns c h e m ea c h i e v e st r a n s p a r e n tc o d i n ga t4 6 b i t s f r a m e ,a n d h a sl o we r r o rp r o p a g a t a t i o ni nf r d t r l ee r a s u r e f i n a l l y , t h e4 6 b i t s f r a m eu n e q u a lc o e f f i c i e n ti n t e r f r a m ep r e d i c t i v es p l i t v e c t o r q u a n t i z e ri sa p p l i e dt oa n8 - 3 2k b se m b e d d e dv a r i a b l eb i tr a t es p e e c hc o d e c t l l i s c o d e ci sp r e s e n t e db yb e i j i n gu n i v e r s i t yo ft e c h n o l o g ys p e e c ha n da u d i os i g n a l p r o c e s s i n gl a b ,a n ds u b m i t t e dt o u - tb yh u a w e ic o m p a n ya s ac a n d i d a t ef o r g 二v b rc o d e c e x p e r i m e n t a lr e s u l t ss h o wt h a tt h eq n a l i t yo fs y n t h e s i ss p e e c hc a n m e e t 也et e r m so f r e f e r e n c ef o ri t u tg v b rc o d e ci ne l e a ns p e e e h k e y w o r d s :e m b e d d e ds p e e c hc o d i n g ;l i n e a rp r e d i c t i o n ;i m m i t t a n c es p e c t r a l f r e q u e n c i e s ;v e c t o rq u a n t i z a t i o n i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 伽) 8 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:盔瑙导师签名 日期:翌2 ! ! 1 1 课题背景 第1 章绪论 一直以来,语言都是人类相互交流的重要手段。通信系统中最常见的数据形 式就是语音。随着计算机与数字信号处理技术的发展,数字化通信网络已经成为 信息社会中必不可少的基础设施之一。用数字化的方法对语音进行编码、传送、 存储、合成、识别等处理,是整个数字化通信网中最重要最基本的组成部分。语 音编码技术作为数字通信领域极为重要的技术之一,在过去的几十年里已经取得 了巨大的成果并制定了一系列区域性和国际性的标准协议【3 鼬,6 】。 移动通信技术的飞速发展对语音编码技术提出了越来越高的要求,不仅要求 编码码率较低以增加系统容量,而且要求合成音质较高以保证通话质量。传统的 编码方法很难同时满足这两个要求,因此人们提出了变速率语音压缩编码方法。 在移动通信系统中采用变速率语音编码可以根据需要动态地调整编码速率,在合 成语音质量和系统容量中取得灵活的折衷,降低传输的平均速率,最大限度地发 挥系统的效能。变速率语音编码作为近些年语音编码领域的研究热点之一,也已 经取得了一定的成剁习。 近些年来,网络技术的不断发展使得网络应用也越来越广泛。i f ( i n t e r a c t f r o t o c 0 1 ) 传输业务的迅速发展、口电话的广泛应用以及无线和有线通信系统的 使用在世界范围迅速增长,使m 通信成为了全球通信系统的主导。而实现无线 和有线网络问的口语音通信,其关键问题在于设计一种新的语音编码方案,使 其能够适应网络传输的特点。网络传输中大多是以数据包的形式进行数据传输 的。但是由于网络拥塞、过延时以及缓冲器溢出等问题,常常会产生数据包在传 输途中丢失的现象,又称之为丢包传统的固定速率语音编码和变速率语音编码, 由于自身编解码器结构的限制,不能适应这种网络传输中的丢包现象。为了避免 由丢包造成的解码端合成语音的大幅度失真,有学者提出了运用嵌入式编码技术 来解决网络传输中的丢包问题【7 】【引。嵌入式编码最大的特点是能够产生具有嵌入 式结构的码流。在嵌入式的码流中,高码率的码流包含了低码率的码流。也就是 说,一个完整的嵌入式码流可以逐层分解成几个不同级别的码流,这些码流的码 北京工业大学工学硕士学位论文 率逐次递减,但依然都能表示原始语音信号的主要参数,只是在不同程度上损失 了一些细节。当网路容量足够时,网络中传输高速率码流,在接收端可以恢复较 高的或事先设定的任意速率的语音质量;当遇到网路不同程度的拥塞时,根据信 道编码协议,码流中的非核心编码将被逐层丢弃,在接收端恢复低速率较差的语 音质量,但总能保证语音的连续性 目前,已经有很多学者开始着手研究嵌入式变速率语音编码,并取得了一定 的成果t 9 ,1 0 1 1 1 。有学者运用三层代数码激励线性预测( a c e l p - - a l g e b r a i ec o d e e x c i t e dl i n e a rp r e d i c t i o n ) 编码结构实现了1 2 6 5 - - 2 7 8 5 k b s 的嵌入式变速率语音编 码 7 1 。2 0 0 6 年,国际电信联盟( r r u t ) 制定了新一代语音编码标准g 7 2 9 1 【1 2 1 。它 采用了嵌入式码激励线性预测【1 哪编码技术、时域频带扩展技术 i s , 1 6 1 以及被称作时 域混叠抵消的预测变换编码技术【1 7 1 ,实现了码流的嵌入式结构。其核心层采用了 与g 7 2 9 t 1 3 1 相同的编码方法,实现了与q 7 2 9 编码器的兼容。嵌入式变速率语音 编码技术的研究已经成为语音编码研究领域的最新热点。 i t u - t 于2 0 0 5 年提出了制定最新的国际语音编码标准,即嵌入式变速率语 音编码标准的要求【1 8 1 。华为技术有限公司委托本人所在的北京工业大学语音与音 频信号处理实验室开发一套完整的符合1 1 r u t 要求的8 3 2 k b s 嵌入式变速率语 音编码器。2 0 0 7 年1 月,华为,松下,诺基亚与v o i e e a g e ,爱立信、摩托罗拉 与t i ,分别提交了候选编码器,参加r r u - t 的测试,测试结果于2 0 0 7 年3 月公 布。本课题即是围绕着高质量的8 - 3 2 k b s 嵌入式变速率语音编码算法研究展开 的 嵌入式变速率语音编码属于变速率语音编码的一种。码激励线性预测( c e l l c o d ce x c i t e dl i n e a rp r e d i c t i o n ) 语音编码模型作为变速率语音编码中最常用到 的技术,势必会被广泛地用于嵌入式变速率语音编码器的设计之中。 线性预测系数是语音编码中非常重要的参数。线性预测系数的矢量量化一直 以来都是语音编码领域非常重要的问题。对于任何基于c e l p 或a c e l p 原理的 编码器来说,能否准确求解线性预测系数并提高其量化性能,将直接影响到整个 声码器的性能。在线性预测系数的计算与量化方面,国内外的专家和学者已经作 了不少的研究。主要集中在线性预测系数的计算方法、线性预测系数的转换及对 应参数的量化等方面。 2 第1 章绪论 目前,在线性预测系数的计算方法方面主要有自相关法、协方差法、斜格法、 协方差斜格法等等【2 】。计算出的线性预测系数通常要被转换成其它便于量化的参 数形式,常用的参数主要包括线谱频率参数( l s f - - l i n e a rs p e c t r a lf r e q u e n c i e s ) i t 9 、导抗谱频率参数( i s f - - i m m i t t a n c es p e c i a lf r e q u e n c i e s ) 2 0 1 、对数面积比 。a r l o ga r e ar a t i o ) t 2 ”、部分相关系数( p a r c o r - - p a r t i a lc o r r e l a t i o n ) 2 2 1 、 反余弦反射系数( a s r c - - - a r c s i n er o f l e e t i o nc o e f f i c i e n t ) 2 3 1 等。对应参数的量化又 分窄带语音和宽带语音两种情况:在窄带语音( 3 0 0 - 3 4 0 0h z ) 编码器中,线性预测 系数对应参数的量化技术已经研究得比较透彻了。人们通常采用将线性预测系数 转换成1 0 阶线谱频率参数后用2 4 比特每帧进行矢量量化的方法阱捌。随着无线 通讯系统中高速率数据服务的发展,宽带语音( 5 0 - 7 0 0 0h z ) 编码已经越来越广泛 地被采纳。相对于窄带语音来说,由于带宽的增加,宽带语音在自然度和可懂度 上都有一定的改善。在宽带语音编码器中,通常需要1 6 阶线性预测系数才能较 好的表示宽带语音的谱包络。因此,待量化矢量的维数将会变大,同时量化所需 要的比特数也会增多。r i = b o r g 等人脚】提出了每帧6 0 到8 0 比特对1 6 到1 8 阶对 数面积比( l a r ) 系数进行非均匀标量量化的方法。l e f e b v r e 2 n 以及c h e r t 船 等 人提出了每帧4 9 比特对1 6 阶线谱频率参数( l s f ) 进行7 段分裂式矢量量化的方 法。b i t m d o t 2 9 1 等人提出了每帧4 5 比特对1 6 阶线谱频率参数( l s f ) 进行4 段和5 段分裂式矢量量化的方法,并也达到了很好的量化效果。由于连续帧的l s f 参 数之间是高度相关的【3 0 】,有些学者又通过去除帧间相关性的方法达到了更好的量 化效果。u b a l e 和g e r s h 0 1 3 1 】提出了对线谱频率参数( l s f ) 进行滑动平均( m a m o v e i n ga v e r a g e ) 预测后进行7 级树搜索多级矢量量化的方法。而b i u n d o 等人嗍 提出了4 2 比特每帧的m a 预测分裂式多级矢量量化( s - m s v q ) 方法,达到了透明 星化的性能。g u i b e 等人【3 0 】运用每帧3 8 比特的安全网矢量量化方法达到了透明 量化的性能。而自适应多速率宽带语音编码标准中( a m r 、b ) 则采用了一种4 6 比特每帧的m a 预测分裂式多级矢量量化( s - m s v q ) 方法p 2 1 。近期提出的一些量 化方案还包括:预测式格型量化【3 3 】、基于隐马尔可夫模型的递归式矢量量化删、 基于高斯混合模型的多帧联合矢量量化【3 5 】以及转换分类分裂矢量量化( s s v q ) 【3 司 等。另外,在矢量量化中为了减少码书搜索的计算复杂度出现了许多快速算法, 主要有:等均值最近邻搜索算法、等方差最近邻搜索算法、等均值等方差最近邻 3 北京工业大学工学硕士学位论文 搜索算法等等 3 7 , 3 8 捌。 虽然在线性预测系数的矢量量化方面已有学者提出了许多算法,但是由于编 码带宽、线性预测系数的转换参数选择及对应参数量化性能等诸多因素的影响, 每种算法都有各自的优势和不足,每种算法都有各自适用的语音编解码器。可以 说迄今为止,并没有一套完整的适用于嵌入式变速率语音编码的线性预测系数分 析与量化方法。因此,提出一套具有较高的计算精度、较低的计算复杂度和存储 复杂度以及优越的量化性能的线性预测系数分析与量化方法是嵌入式变速率语 音编码领域极具挑战的任务之一。 1 2 研究目标 线性预测系数的矢量量化算法是a c e l p 语音编码算法中至关重要的环节, 它的正确与否直接关系到整个嵌入式编码器中a c e l p 编码模块的性能。因此, 本课题的研究目标为:8 - - - 3 2 k b s 嵌入式变速率语音编码中线性预测系数的矢量量 化算法。针对现有线性预测系数的矢量量化算法在处理语音分组丢失问题时效果 不佳的问题,结合嵌入式变速率语音编码算法的特点,重点研究具有较高精度及 可以接受的计算复杂度和存储复杂度,且在语音分组丢失的情况下具有较小的错 误繁殖的线性预测系数矢量量化方案。将研究出的线性预测系数矢量量化算法在 p c 机上用c 语言浮点程序仿真实现,并最终移植到高质量的8 - 3 2 k b s 嵌入式变速 率语音编码器中加以应用。 1 3 主要研究内容 根据本课题的研究目标,主要研究内容如下: 基于8 - 3 2 k b s 五层嵌入式交速率语音编码器的特点,研究适合于该编码算 法的线性预测系数矢量量化方法,主要包含如下几个方面: ( 1 )针对矢量量化中传统的码书全搜索算法计算复杂度过高的问题,研究l s f 参数矢量量化的码书搜索快速算法: ( 2 ) 针对现有的i s f 参数矢量量化技术无法平衡无丢失帧与有丢失帧时量化 器量化性能的问题,研究适用于嵌入式变速率语音编码的i s f 参数矢量量 化算法; 4 第1 章绪论 ( 3 ) 针对嵌入式变速率语音编码算法的特点,研究一套完整的适用于8 - 3 2 k b s 嵌入式变速率语音编码器的线性预测系数分析与量化方法。 1 4 本文的组织安排 第一章为绪论,主要介绍了课题背景、本文的研究目标及主要研究内容。 第二章为线性预测分析,比较了几种常用的线性预测系数求解方法,并详细 分析了两种常用线性预测系数转换形式的特点。 第三章为l s f 参数矢量量化中的码书快速搜索算法,主要介绍了现有码书快 速搜索算法的原理,并提出了一种改进的基于哈德码变换的矢量量化码书快速搜 索算法。 第四章为i s f 参数的矢量量化算法,主要提出了三种i s f 参数的矢量量化方 案:i s f 参数的转换分类分裂矢量量化、i s f 参数的转换分类乘积码锥形矢量量化 及i s f 参数的各维非等系数帧问预测分裂矢量量化。 第五章为嵌入式变速率语音编码中的线性预测分析与量化,主要介绍了嵌入 式变速率语音编码的研究现状及8 , 一3 2 k b s 嵌入式变速率语音编码器,重点阐述了 该编码器中的线性预测系数分柝与量化方案。 5 第2 章线性预测分析 第2 章线性预测分析 线性预测分析( l p a - - l i n e 斌p r e d i c t i v ea n a l y s i s ) 是进行语音信号分析最有 效和最流行的分析技术之一。它提供了一组简洁的语音信号模型参数,这一组参 数较精确地表征了语音信号的频谱幅度,而分析它们所需的运算量相对来讲却并 不大。线性预测分析的基本思想是利用一个时变的线性预测误差滤波器去除语音 信号中的短时相关性,其分析过程实质上就是设计预测误差滤波器的过程。通常, 将该滤波器的系数称为线性预测( l p - - l i n e a rp r e d i c t i v e ) 系数,它较好地描述了声 道模型的基本特征。该滤波器的输出信号称为线性预测残差信号,可以用来表征 语音产生模型中的声门激励信号。 本章将介绍语音信号线性预测分析的基本原理【1 1 、l p 系数的各种求解方法1 2 及l p 系数的其它表示形式。最后给出线谱频率0 9 q ( l s f - - l i n e a rs p e c t r a l f r e q l l c i e s ) 参数和导抗谱频率口叼s f - - i m m i t t a n c cs p e c t r a lf r 钮u e n c i 船) 参数的性 能比较。 2 1 线性预测分析的基本原理 语音信号的产生过程可以看成是声门激励信号激励声道模型的过程,该过程 在线性预测分析中可以等效为线性预测残差信号激励时变线性滤波器的过程,如 图2 1 所示。 图2 - 1 线性预测合成滤波器 其中 4 ( z ) = 1 一艺q z 。 ( 2 - 1 ) 1 - 1 这是一个p 阶的全极点滤波器,因为用来合成语音,通常被称为线性预测合成滤 波器,其系数矗 。如。即为l p 系数。如果阶数p 的值足够大,线性预测合成滤 波器可以以任意小的误差逼近声道模型,其幅频响应能很好地匹配输入语音信号 7 北京工业大学工学硕士学位论文 的幅度谱包络,即滤波器的谐振频率与语音信号共振峰的位置相匹配。实验证明 闭,对于8 k h z 采样率的窄带语音信号,p = l o 时可以对绝大多数的声道模型取得 足够近似的逼近;对于1 6 kh z 采样率的宽带语音信号,7 = 2 0 时就可以对绝大多 数的声道模型取得足够近似的逼近。 线性预测分析滤波器是线性预测合成滤波器的逆过程,它将输入语音信号转 换为l p 系数与残差信号,如图2 - 2 所示。 图2 - 2 线性预测分析滤波器 从图2 - 1 与图2 - 2 中可以看出输入语音s ( n ) 与残差信号p ( 弹) 之间有如下关系: e ( 刀) :s ( 盯) 一壹q 。( 万一f ) ( 2 - 2 ) i - ! s ( 甩) :童q s ( 珂一f ) + 。( 咒) ( 2 - 3 ) l - i 若令j ( 疗) :妻q j ( 行一f ) ,则式( 2 2 ) 可以写成 i - 1 e ( 万) = s ( 疗) 一j ( 疗) = s ( 拧) 一q s ( n j ) ( 2 - - 4 ) 可见,j ( 疗) 是由与j ( 丹) 邻近的过去p 个值线性组合得到的,即由j 0 ) 过去 的值来预测或估计当前值,故称之为线性预测值。残差信号p ( 疗) 就是原始信号 j ( 行) 和预测信号i ( 珂) 之差。 线性预测分析实质上就是设计一个线性预铡分析滤波器a ( z 1 ,即求解 q ) ,i 如。使得残差信号e ( 刀) 在某个预定的准则下最小这个准则通常采用最小 均方误差准则,即使e e 2 0 ) 最小。根据式( 2 - 4 ) 可以得到 e e ( 门) _ e 陋甩) 一壹q s ( 川) 】:i ( 2 - 5 ) 为使e e 2 ( 玎) 最小,各系数巳应满足e 。2 0 ) 对q 的偏微分为0 ,即 8 进而得到 将8 ( 乔) 代入上式可得 ( 1 s ,s p ) ( 2 - 6 ) 盟a 坳a j = 之e ,( 一一让。 ( 2 - 7 ) 量4 n ) ,( 州) 一杰i - i 叩( 一一忡一力j i( z 2 - 8 ) -6 j = ,( 力一芝q ,( ,一o ;0 ( 1 s - ,s 力 其中,( ,) = ,( 一) s 0 一明是s ( 一) 的自相关序列将式( 2 - 8 ) 写成矩阵形式为: r i r a = 0 这里自相关矢量r 、自相关矩阵r 和参数矢量a 分别为: ,:陬r :4 0 ) 扩删r ( p - 1 ) 1 l 乏) j1 0 1 ) 如- 2 ) 毒) j一目 ( 2 9 ) 式( 2 - 9 ) 称为y u l e - w a l k e r 方程,求解该方程可以得到p 个l p 系数巳得到l p 系数后,将其代入式( 2 - 5 ) 便可求得最小均方误差q ,即 结合式( 2 9 ) 和式( 2 1 0 ) 可以得到 4 0 )r ( 1 ) r ( p ) r o ) 4 0 ) r ( p - i ) r ( 2 )r o )r ( ,- 2 ) ; r ( v ) r ( p - 1 ) r ( o ) 9 1 一q 一口2 : 一n p 日 0 0 : o ( 2 1 0 ) ( 2 1 1 ) 1j s 1j嘲 叫嘶 p q 0 儿扣删晓。删叫州芝。 r卜队”书七出啦州 北京工业大学工学硕士学位论文 式( 2 1 1 ) 就是针对平稳信号的、完整的线性预测分析滤波器的求解方程式。 从原理上看,线性预测分析是非常直截了当的,即一旦求出自相关序列 r ( s ) ,便可通过式( 2 9 ) 求出l p 系数巳,但r ( j ) 的计算及方程组的求解是非 常复杂的。因此在下一节将介绍 系数的求解过程。 2 2 线性预测系数的解法 人在说话时,声道的形状不断地发生变化。因此,线性预测分析滤波器与合 成滤波器均被认为是随时间而变化的,即l p 系数是时变参数。但考虑到运算复 杂度的问题,在实际运用中l p 系数一帧内仅被计算一次 线性预测的关键是求解下面的方程组: a1 r u ) 一a i r ( j f ) = 0 ,l s _ ,s pl : ( 2 1 2 ) p 、 r ( o ) 一吖( f ) = e p i i f t j 式中r ( j ) - - e b o b 0 一剜是待分析语音信号s 0 ) 的自相关序列。为了求解 口f 。加,首先要计算,c ,) ,但计算叱) 涉及到集平均,是一个非常复杂的问 题。对于平稳遍历的随机信号,通常用时间平均代替集平均。由于语音信号具有 短时平稳特性,可假定分析帧内的语音信号是平稳遍历的,此时可定义自相关序 列r 【,) 的估计值为: 以) = s o b g 一力 ( 2 1 3 ) 式中未除以语音段的长度,是因为常数i n 并不影响方程组( 2 1 2 ) 的求解。 唯一要修正的是,将预测误差功率。理解成预测误差能量即可。 根据式( 2 1 3 ) 中r l 的求和范围的不同,会有不同的线性预测系数的解法。 经典的解法有两种,分别是自相关法和协方差法。自相关法假定语音信号序列 s ( n 1 在阊隔0 n s n i 以外等于0 。协方差法不规定语音信号的长度范盈,而 是将式( 2 1 3 ) 中刀的取值范围定为o s 甩sn 一1 ,在此范围内认为估算以) 所 需要的s ( n 1 值存在。这两种方法中在精度和稳定性之间都存在着矛盾,因此导 致了斜格法的逐渐形成。 1 0 第2 章线性预测分析 表2 - 1 列出了各种求解线性预测系数算法的优缺点,其中p 是线性预测分 析的阶数,是分析帧的长度。从运算量来看,在自相关法中,计算自相关矩 阵大约需要p n 次乘法,矩阵方程求解大约需要p 2 次乘法;对于协方差法,相关 矩阵的计算所需乘法次数亦为p n , 而矩阵方程求解( 用c h o l c s k e y 分解程序) 需 要的乘法次数正比例子p 3 项,因此协方差法的运算量略高于自相关法。对于斜 格法,计算反射系数七约需要5 p n 次乘法,相对来说计算效率最低。然而采用协 方差斜格法后,可使得所需乘法的次数减少到和协方差法相近的程度。 表2 - 1 线性预测系数求解算法的性能比较 性能自相关法协方差法斜格法 协方差斜格法 窗口函数需要不需要不需要不需要 稳定性可以保证 不能保证可以保证可以保证 有限字长时 不能保证不能保证可以保证可以保证 的稳定性 乘法运算量p n + p 2 p n + 3 p 2 2 + p 65 p np n + 2 矿+ 矿 2 参数精度 最差 最好很好很好 本文采用的是自相关法,因此f 面仅简要介绍一下自相关法。 自相关法假定语音信号序列j 在间隔o s 再一1 以外等于0 ,即s g ) 要先 经过有限长窗的处理。通常选用哈明窗对j g ) 进行截取,这样可以使旁瓣能量最 小,即窗函数被定义为: 西) :0 5 4 一c o s ( 器) ,。 沼 【0 ,其它 则加窗后的语音为: 如g ) = s 0 ) 以) ( 2 - 1 5 ) 对加窗语音作自相关序列估计,可得: 叱) = o b 。g 一,) ,o ,p ( 2 1 6 ) 易见山) 的估计值保留了信号s o ) 自相关序列的特性,例如以) 满足偶函数特 性,即r e j ) - - 一,) ;以一0 仅与,、f 的相对距离有关等。因此,方程组( 2 1 2 ) 仍可写成自相关矩阵形式,即 北京工业大学工学硕士学位论文 r ( 0 )r ( 1 ) r 0 ) r ( 1 )巾)r ( p 1 ) r ( 2 )r 0 )r ( p 一2 ) !; ,0 ) r ( p 1 ) 巾) i 一口i 一4 2 : 一口, e p 0 0 : o ( 2 1 7 ) 这种方法即为自相关法。 可以看到,式( 2 1 7 ) 中的自相关矩阵具有t o c p u t z 结构,对于具有这样一 种结构的方程组,可以用一种特殊的递推算法来求解,其基本思想是:i 阶方程 组的解可以用i l 阶方程组的解来表示,j l 阶方程组的解又可以用i 一2 阶方程 组的解表示,依此类推,只要解出一阶方程组的解,就可递推解出任意阶方程组 的解。这种递推算法中,最常用的为l c v i n s o n - d u r b i n 算法【旧。本文采用的就是 这种算法。 自相关法有一个本质的缺点,它是对用有限长窗截取的一段语音j ,( ”) 进行 计算,而不是对原始语音s ( n ) 进行计算,因此总会引入误差。但是它又有其它方 法无可比拟的优点,因为自相关矩阵具有t o c p l i t z 结构,所以总能保证线性预测 合成滤波器的极点全部在单位圆内,即可以保证系统的稳定性。 2 3 线谱频率分析 在对每一帧语音信号进行线性预测分析后,可以得到了一组表征此帧语音信 号谱包络特征的l p 系数。实际的编码器中需要对l p 系数进行量化处理。但是, 由于l p 系数有较宽的动态范围,如果直接对其进行量化,量化误差可能会导致 合成滤波器的不稳定。另外,每帧计算出的l p 系数还需要经过内插运算,使每 一子帧都有一组l p 系数,以确保每帧传送的l p 系数连续变化,若直接内插l p 系数也可能导致合成滤波器的不稳定。出于对合成滤波器稳定性和量化效率的考 虑,通常将线性预测系数转换成在数学上完全等价的其他参数后再进行量化和内 插处理。线谱频率( l s f l i n e a rs p e c t r a lf r e q u e n c i e s ) 参数【1 j 就是l p 系数的一种重 要的等价表示。由于其参数具有良好的插值特性并且易于量化,近年来得到了广 泛的应用,尤其是在语音合成和压缩领域。 第2 章线性预测分析 2 3 1 线谱频率参数的定义及性质 线谱频率( l s f ) 参数是线性预测系数的另一种表现形式l s f 参数在数学角 度上完全等价于其他的线性预测编码系数,诸如,l p 系数q 和反射系数岛等。 l s f 为频域参数,而q 和岛为时域参数。如果把声道等效为p + l 段声管级联而成, 则线谱频率表示声门完全开启或完全闭合状态下声管的谐振频率。 在语音的线性预测分析中,合成语音被看成是一个全极点滤波器 h ( z ) = l l a ( z ) 的输出。这里么( z ) 为线性预测误差滤波器: 彳( z ) = l + q z q + + c o z p = l + 呸z 可( 2 - 1 8 ) t = l 其中,p 为线性预测阶数, 吗) 。玉,为线性预测系数 设n 阶线性预测误差滤波器的传递函数为4 ( 三) ,则4 ( z ) 满足以下递推关 系: 4 ( z ) = 4 。( z ) 一屯z ”4 。( z 。1 ) , n = l ,2 ,p ( 2 - 1 9 ) 其中4 ( z ) = 1 , 岛) ,。如。称为声道声管模型的反射系数。反射系数在数学 角度上完全等价于l p 系数,换句话说,反射系数和 系数表达了相同的谱信 息。对于反射系数,如果满足j 与j l ,则合成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025初三升高一数学暑假衔接讲义25讲含答案(必修一内容)5.6 三角函数倍角公式
- 统编版2025年七年级语文下学期期末总复习(专题训练)专题04文言文阅读(考题猜想)(学生版+解析)
- 爱岗敬业14课件
- 考研复习-风景园林基础考研试题【夺冠】附答案详解
- 风景园林基础考研资料试题及参考答案详解【综合题】
- 《风景园林招投标与概预算》试题A附参考答案详解(考试直接用)
- 2025-2026年高校教师资格证之《高等教育法规》通关题库含答案详解(考试直接用)
- 泰州市2024-2025学年三年级下学期数学期末试题一(有答案)
- 2023国家能源投资集团有限责任公司第一批社会招聘笔试备考题库含答案详解ab卷
- 2025年河北省定州市辅警招聘考试试题题库及参考答案详解一套
- 【MOOC】微积分(二)-电子科技大学 中国大学慕课MOOC答案
- 部队安全设施改造方案
- 工程项目竣工交接单模板
- 代理销售居间服务协议版
- n3护士竞聘演讲
- 第二次全国地名普查类别
- 2024年公司借款协议模板(三篇)
- 新课标对学习评价目标与路径的构建读后感
- 江苏省南通市海门市2023-2024学年六年级下学期期末英语试卷
- 重度哮喘诊断与处理中国专家共识(2024版)解读
- 糖尿病酮症酸中毒诊疗指南中国2型糖尿病防治指南(2020年版)
评论
0/150
提交评论