




已阅读5页,还剩77页未读, 继续免费阅读
(通信与信息系统专业论文)g729a声码器算法研究和dsps实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文主要目标是基于德州仪器公司f r i ) 的t m s 3 2 0 c 5 4 1 6d s p 芯片的i t ug 7 2 9 a 8 k b i t s 声码器实现。i t u 提供了g 7 2 9 a 声码器的1 6 位定点a n s ic 仿真程序。由于 在编、解码过程中需要大量计算耗时,该a n s ic 程序并不适合采用数字信号处理器 ( d s p ) 芯片来实时实现。在研究i t ug 7 2 9 a 标准算法和学习并熟悉t m s 3 2 0 c 5 4 1 6 d s p 开发后,将c 代码转换为可实时实现的t m s 3 2 0 c 5 4 1 6 汇编程序以及基于 t m s 3 2 0 c 5 4 1 6 1 0 0d s k 硬件目标平台实现g 7 2 9 a 声码器所需的硬件设计是本文的 工作重点。因此,本文主要任务包括:研究i t ug 7 2 9 a 标准算法和熟悉t m s 3 2 0 c 5 4 1 6 d s p 开发;g 7 2 9 a 声码器a n s i c 代码仿真实现并转换为可实时实现的t m s 3 2 0 c 5 4 1 6 汇编程序;t m s 3 2 0 c 5 4 1 6 1 0 0d s k 硬件目标平台的硬件程序设计。 g 7 2 9 a 是i t u 于1 9 9 6 年1 1 月公布的g 7 2 9 建议的附件a 。其中,i t u 于1 9 9 6 年3 月制定了g 7 2 9 语音编码方案,即采用共轭结构一代数码激励线性预测 ( c s - a c e l p ) 技术的具有8 k b i t s 码速率的语音编码算法建议g 7 2 9 ,该算法是以按 合成分析法( a b s ) 和码激励线性预测( c e l p ) 技术为基础提出的,属于i t u 已制定语音 压缩国际标准中最新且码率较低的一种。g 7 2 9 a 主要目的是在基本不影响编码性能 的情况下减少g 7 2 9 计算复杂度,它主要应用在个人移动通信、数字卫星系统和高质 量数字移动无线通信等领域。 本文详细研究了g 7 2 9 a 基于t m s 3 2 0 c 5 4 1 6d s p s 实时实现的设计与开发,在讨论 了语音编码关键技术和g 7 2 9 a 标准算法后,先对g 7 2 9 a 实现的c 程序进行分析,再 重点论述了g 7 2 9 a 在t m s 3 2 0 c 5 4 1 6 型d s p s 上实现的软、硬件设计开发的过程和技术。 最后对该声码器进行性能分析。 d s p 的软、硬件的设计和开发是g 7 2 9 a 实现的核心技术。软件设计和开发过程 中,本文强调的是c 程序的移植和优化时的关键技术,如文件操作,汇编优化的方法, c 和汇编函数互相调用的方法。在硬件设计和开发时主要考虑的问题是硬件中断编程 以及m c b s p 和a d d a 技术。 本文共分为六章。第一章概述了语音数字压缩技术,第二、三章论述了语音编码 的基本原理和g 7 2 9 a 编解码器的算法,第四章研究了g 7 2 9 a 的实现的c 程序,第五 章详述了使用t m s 3 2 0 c 5 4 1 6d s p s 芯片的软、硬件开发和设计,最后一章是对本文进 行了工作总结。 关键词:g 7 2 9 a ,合成分析一线性预测编码,t m s 3 2 0 c 5 4 1 6d s p 芯片,汇编优化 a b s t r a c t t h ep r i m a r yo b j e c to ft h i sp a p e ri st oi m p l e m e n tt h ei t ug 7 2 9 a8 k b i t sv o c o d e r b a s e do nt m s 3 2 0 c 5 4 1 6d s p s 1 6b i tf i x e d p o i n ta n s icc o d ei sa v a i l a b l ef r o mi t ub u t i ti sn o ts u i t a b l ef o ri m p l e m e n t a t i o ni nr e a lt i m eu s i n gad i g i t a ls i g n a lp r o c e s s o r ( d s p ) d u e t ot h el a r g ec o m p u t a t i o n a lt i m er e q u i r e df o rt h ee n c o d e ra n dd e c o d e r t h em o s tv i t a l e s t p a r to ft h i sp a p e ri st oc o n v e r tt h ea n s ic c o d e si n t ot m s 3 2 0 c 5 4 1 6 a s s e m b l yl a n g u a g e a n dh a r d w a r ed e s i g nr e q u i r e df o rg 7 2 9 ai m p l e m e n t a t i o no nt m s 3 2 0 c 5 4 1 6 1 0 0d s k h a r d w a r eo b j e c tp l a t t h em a i nt a s k so ft h i sp a p e ri n c l u d e :u n d e r s t a n dg 7 2 9 as t a n d a r d ; c o n v e r tt h ea n s icc o d e si n t ot m s 3 2 0 c 5 4 1 6 a s s e m b l yl a n g u a g e ;p r o g r a mf o rh a r d w a r e o f t m s 3 2 0 c 5 4 1 6 1 0 0d s kh a r d w a r eo b j e c tp l a t g 7 2 9 ai si t ur e c o m m e n d a t i o n0 7 2 9 一a n n e xaa n di sp u b l i c i z e db yi t ui nn o v 19 9 6 i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ( i t u ) e s t a b l i s h e das c h e m eo fg 7 2 9s p e e c h c o d i n gi nm a r c h19 9 6 。t h ei t ug 7 2 9r e c o m m e n d a t i o nc o n t a i n st h ed e s c r i p t i o no fa n a l g o r i t h m f o r c o d i n g o f s p e e c hs i g n a l s a t8 k b i t s u s i n gc o n j u g a t e - s m a c t u r e a l g e b r a i c - c o d e e x c i t e dl i n e a r p r e d i e f i o n ( c s a c e l p ) ,w h i c hm a k e s u s eo f a n a l y s i s - b y - s y n t h e s i sa n dc o d ee x c i t e dl i n e a rp r e d i c t i o ni nt h es c h e m ea n db e l o n g st o t h en e w e s t 、l o w e rr a t es p e e c hc o d eo f i n t e r n a t i o n a ls t a n d a r d se s t a b l i s h e db yi t u t h em a i n a i mo fg 7 2 9 ai st or e d u c ec o m p u t a t i o n a lc o m p l i c a t i o n s m o s t l ya p p l i e df i e l d so fg 7 2 9 a i n c l u d ep e r s o n a lm o b i l ec o m m u n i c a t i o n ,d i g i t a ls a t e l l i t es y s t e ma n dh i g hq u m i t yd i g i t a l m o b i l ew i r e l e s sc o m m u n i c a t i o n ,e t c t h i sp a p e rd e t a l l e d l ys t u d i e st h ed e s i g na n dd e v e l o p m e n to fg 7 2 9 ar e a lt i m e i m p l e m e n t a t i o nb a s e do nt m s 3 2 0 c 5 4 1 6d s p s a f t e rd i s c u s s i n gi m p o r t a n tt e c h n i q u e so f s p e e c hc o d i n g a n dg 7 2 9 as t a n d a r d , f i r s t l ya n a l y z e a n s icc o d eo fg 7 2 9 a i m p l e m e n t a t i o n ,f o l l o w i n gt oe m p h a s i so nd i s c u s s i n gt h es o r w a r e 、h a r d w a r ed e s i g na n d d e v e l o p m e n to fg 7 2 9 ar e a lt i m ei m p l e m e n t a t i o no nt m s 3 2 0 c 5 4 16d s r a tl a s t ,a n a l y z i n gt h ep e r f o r m a n c eo f t h ev o c o d e n t h es o f t w a r e 、h a r d w a r ed e s i g na n dd e v e l o p m e n to f d s pi sc o r et e c h n i q u eo f g 7 2 9 a r e a lt i m ei m p l e m e n t a t i o n d u r i n gs o f t w a r ed e s i g na n dd e v e l o p m e n t ,t h i sp a p e re m p h a s i z e s o nt r a n s p l a n ta n do p t i m i z a t i o nt e c h n i q u e so fcc o d e ,s u c ha s f i l eo p e r a t i o n ,a s s e m b l y o p t i m i z a t i o n ,c a l lo fca n da s s e m b l yf u n c t i o n e a c ho t h e nt h ei m p o r t a n tq u e s t i o n sa r e h a r d w a r ei n t e r r u p tp r o g r a m m i n g ,m c b s pa n da d d at e c h n i q u e t h i sp a p e ri so r g a n i z e da sf o l l o w s :c h a p t e r 1s u m m a r i z e ss p e e c hs i g n a lc o d i n g t e c h n i q u e s i nc h a p t e r2a n d3 ,t h es p e e c hc o d i n gr a t i o n a l e sa n dg 7 2 9 ae n c o d e ra n d d e c o d e ra l g o r i t h m sa r ed i s c u s s e d ,r e s p e c t i v e l y c h a p t e r4s t u d i e st h es o f t w a r et h a td e f i n e s t h i sc o d e ri n16b i tf i x e d p o i n ta r i t h m e t i c c h a p t e r5d e t a i l e d l yd i s c u s s e st h es o f t w a r e 、 h a r d w a r ed e s i g na n dd e v e l o p m e n tu s i n gt m s 3 2 0 c 5 4 1 6d s et h i sp a p e ri ss u m m a r i z e di n 也el a s tc h a p t e r6 k e y w o r d s :g 7 2 9 a a b s l p c ,t m s 3 2 0 c 5 4 1 6d s p 。a s s e m b l yo p t i m i z a t i o n 符号 a b s a b s 。l p c c e l p c s 。a c e l p d s p i t u l p c l t p l s p l s f m b e l p c m c b s p m o s m p e l p c m s p e r p e l p c s t p t i v q v s e l p 缩略词总汇 意义 合成分析法 按合成分析一线性预测编码 码激励线性预测 共轭结构一代数码激励线性预测 数字信号处理( 器) 国际电信联盟 线性预测编码 基音预测或长期预测器 线谱对 线谱频率 多带激励线性预测编码器 多通道缓冲串口 平均主观得分 多脉冲线性预测编码器 最小平方预测误差 规则脉冲激励线性预测编码器 短期预测器 德州仪器公司 矢量量化 矢量和激励线性预测编码器 v 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做 出重要贡献的个人和集体,均己在论文中作了明确的说明并表示了谢 意。本声明的法律结果由本人承担。 学位论文作者签名:给各幻 日期:2 0 0 5 年3 月6 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签字: 论文作者签字:缝全出 1 1概述 第一章绪论 随着i n t e m e t 、v o l p 、第三代( 3 g ) 无线通信等新技术的持续发展,又由于数字 语音通信较之模拟语音通信具有抗干扰性强、保密性好、易于开展增值业务、管理 和控制方便、生产成本低等优点,使得数字语音通信成为当前信息产业中发展最快、 普及面最广的业务。语音应答系统、数字录音电话、语音信箱、语音查询系统等语 音业务( i v r ) ,也是随着语音压缩编码而发展起来的。由于数字信号处理算法和器 件( d s p 芯片) 的飞速发展,6 4 k b i t s 、3 2k b i t s 、1 6k b i t s 和8k b i t s 的语音编码器 已经标准化,并达到了实用化阶段。基于当前以及将来频率资源愈加宝贵的情况, 在保证语音一定质量的前提下应尽可能降低传输数码率,亦即降低成本。因此,4 8k b i t s 以及更低数码率的语音编码器将是以后数字语音通信领域的主要研究方向。 1 2 数字语音压缩技术的基础理论和算法 传统上,语音信号以3 4 k h z 的带宽通过双绞线传输。该模拟波形经模数转换器 后输出脉冲编码调制( p c m ) 信号,要保证电话语音的高质量( 带宽为3 0 0 3 4 k h z , 信嗓比( s n r ) 为3 0 d b ) ,则线性p c m 信号必须具有8k h z 的采样率和1 6b i t s 样 品分辨度,所得到的比特率为1 2 8k b i f f s 。这个比特率能够作为未编码语音的参考比 特率。根据香农( s h a n n o n ) 的经典理论,在不考虑编码器结构的情况下,上述3 4 k h z 带宽的电话信号的最大信息速率c 可由下式计算 r p c = f l 0 9 2 l1 + - 笔- | ( 1 1 ) l u j 得c 为3 4k b i t s 。这是语音所需信息速率的上限。这里,对于语音信号存在短期相 关和长期相关,都没有考虑。而信号中所存在结构性相关,就意味着冗余度。它能 够在传输之前除去,从而降低信息速率。 在保证语音质量的前提下除去语音信号中的冗余度以降低比特率正是语音编码 的目的。除去语音信号中韵冗余度,就必须利用其相关性。通常最广泛使用的是线 性预测技术。它可以归纳为两种不同的方法。第一种除去语音信号冗余度是用线性 预测器技术求出语音信号的预测值,得到残差信号。而残差信号具有很低的冗余 1 垦塑堡三查兰堡圭! 堡兰苎 度,它能够方便和有效的编码。第二种是利用线性预测技术,求出声道模型和有关 参量。并从语音信号中求出相应的激励参量。而传送参量只需较少的比特率,在接 收端可以利用这些参量重构语音信号。其中,第一种方法称为非参数分析法或波形 编码。该方法通常是利用语音信号的一些统计性质及听觉上的一些特征而对语音信 号进行量化以达到语音压缩的目的。这类编码的i t u t 标准有:6 4k b i t s p c m 语音 编码g 7 1 1 建议、3 2k b i t s a d p c m 语音编码g 7 2 1 建议,还有g 7 2 6 、g 7 2 3 、g 7 2 2 建议等。第二种方法称为参数分析法或参数编码。该方法首先把语音信号的产生用 某种语音生成模型来表示,然后用语音的特征提取方法提取其必要的参数,并对这 些参数进行编码。如线性预测编码( l i n e a r p r e d i c t i v ec o d i n g ,l p c ) 模型下的声道 特征参数,清浊音判决及基音信息。 波形编码通常称为高速编码,其比特率在3 2 k b i t s 以上;参数编码其速率一般 在4 8 k b i t s 以下,称为低速编码。波形编码不适应于低速语音编码,这是由于粗量 化造成大量的量化噪声从而降低了语音质量。简单的参数编码方法虽然降低了语音 编码速率,但合成语音质量差。如数字声码器l p c - 1 0 、l p c 一1 0 e 在2 4k b i t s 速率 下,可以产生完全可懂的语音,但音质和自然度一直很差。使用合成分析法可以比 较满意的解决这个问题。因为它更客观的模拟了激励源特性,从而使重构语音的质 量具有本质的提高。这种语音编码算法是按合成分析一线性预测编码,简称 a b s ,l p c ( a n a l y s i sb ys y n t h e s i s l i n e a rp r e d i c t i v ec o d i n g ) 。这样的编码器有:多脉 冲线性预测编码器( m p e - l p c ) 及规则脉冲激励线性预测编码器( r p e l p c ) 、码 激励线性预测( c e l p ) 编码器、矢量和激励线性预测( v s e l p ) 编码器、多带激 励线性预测( m b e - l p c ) 编码器等。但最重要的一种是基于a b s - l p c 算法的码激 励线性预测( c e l p ) 编码。c e l p 主要采用矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 技术对激励信号编码,即激励信号以码矢量的形式存储于码本中,编码器只将最适 合码矢量的地址送入信道。c e l p 具有波形编码和参数编码两方面特点,所以称为 混合编码。而且又由于其编码速率在4 8 k b i s 以上的速率获得很大的成功而称为中 速语音编码。低延迟码激励线性预测编码( l d c e l p ) g 7 2 8 建议、8 k b i t s 的共轭 结构一代数码激励线性预测编码( c s a c e l p ) g 7 2 9 建议等属于这类编码器。 另外,语音编码的另一项技术就是感觉加权滤波器。感觉加权滤波器设计的依 据为人耳听觉的“掩蔽效应”。人的听觉系统对于不同频段噪声的感觉是不一样的。 如果有一个强信号存在,一个本来可以听到的话音可能被掩蔽成不可听的信号,这 一感觉效应称为掩蔽效应。感觉加权滤波器的作用就是使语音能量高的频段处误差 , 第一章绪论 大一些,反之则小一些。由此在能量高频段处得到量化噪声也许会增加,但是对于 人的听觉系统来说可感的噪声却降低了,可以有效的提高a b s - l p c 编码器的性能。 语音编码之后,其合成语音的质量包括可懂度和说话人的辨识能力( 也称为自 然度) 。这些都和人的主观听觉感知有密切关系,是一种主观判定标准,虽为复杂 但应用较多。m o s ( 平均主观得分:m t r l o p i n i o ns c o r e ) 是一种常用的主观判定方 法,以其平均主观打分来度量,用5 级确定语音质量等级,分为优、良、中、差和 劣5 级。如果m o s 为4 0 分以上,则为高质量,接近信道透明编码,称为网络质 量,合成语音质量符号长途要求。m o s 降到3 5 分,为通信质量,这时语音质量会 有所下降,但不妨碍正常通信。m o $ 不达到3 0 分的语音一般具有高的可懂度,但 自然度较差。 语音编码器具有四类属性:比特率、语音质量、复杂度和延迟。对于一种给定 的应用,某些属性是预先确定的。而在有些情况下,能够作一些折中。语音质量可 以增加比特率或复杂度而得到改善,有时也能增加延迟来改善。对于所要求的属性 都需要建立相应目标。表1 1 对i t u 语音编码器( 2 7 1 1 建议和g 7 2 9 建议四类属性 作了比较。 表1 1i t u 语音编码器g 7 1 1 建议和g 7 2 9 建议的四类属性 颁发比特率 复杂度 时延编码器类 标准 r a m 话音质量 年份 ( k b i t s ) m i p s ( m s ) 型 ( b ”e ) g 7 1 11 9 7 26 4 1 l0 1 2 5长途压扩p c m g 7 2 91 9 9 682 02 kl o 十5 长途 c e l p 1 3语音编码器的d s p s 实现 国际电信联盟( i t u ) 于1 9 9 6 年推出了采用共轭结构一代数码激励线性预测 ( c s a c e l p ) 技术的具有8 k b i t s 码速率的语音编码算法建议( 2 7 2 9 ,该算法是以 语音编码方案中的按合成分析法和码激励线性预测( c e l p ) 技术为基础提出的, 是属于i t u 已制定语音压缩国际标准中最新且码率较低的一种。为了降低复杂度, i t u t 在1 9 9 6 年5 月通过了( 3 7 2 9 附件a ,即g 7 2 9 a 。它主要应用在个人移动通 信、数字卫星系统和高质量数字移动无线通信等领域。c e l p 虽然能在中低速率上 提供比较好的合成语音方案,但计算复杂和数据存储量大却是它的固有的缺陷。这 使得一些理论上性能良好的语音编码方案在实时实现或实际应用中还存在许多困 1 昆明理工大学硕士学位论文 难。因此语音编码算法的实时实现一直是该领域的一个具有重要意义的研究课题。 在语音编码算法开发的同时,最近2 0 多年中,d s p 技术也有很显著的进展。 很多强有力的定点和浮点d s p ,已经为复杂语音编码算法的实时实现铺平了道路。 为提高运算速度以满足实时数字信号处理算法的要求,当前d s p 都放弃采用冯诺 依曼结构而采用哈佛结构。哈佛结构采用流水线方式使得处理指令和数据可以同时 进行,从而大大提高处理速率。d s p 以其卓越的运算能力为数字语音信号处理领域 的研究及开发提供了有力的工具。 各大芯片厂商纷纷推出各具特色的高性能数字信号处理芯片( d i g i t a ls i g n a l p r o c e s s o r ,d s p ) ,如德州仪器公司( t e x a si n s t r u m e n t s ,t i ) 的t m $ 3 2 0 系歹0d s p 、 m o t o r o l a 公司的d s p 5 6 x x x 系列、模拟器件公司( a n a l o g d e v i c e s ,a d ) 的a d s p 2 1 0 0 系列、a t & t 公司d s p l 6 系列等。在这么多的d s p 芯片种类中,最成功的是t i 公 司的一系列产品。t i 公司在1 9 8 2 年成功推出第一代d s p 芯片t m s 3 2 0 1 0 及其系列 产品t m s 3 2 0 1 1 、t m s 3 2 c 1 x 等,之后相继推出了第二代d s p 芯片t m s 3 2 0 2 0 、 t m s 3 2 0 c 2 x ,第三代d s p 芯片t m s 3 2 c 3 0 c 3 1 c 3 2 ,第四代d s p 芯片 t m s 3 2 c 4 0 c 4 4 ,第五代d s p 芯片1 m s 3 2 c 5 ) ( c 5 4 x ,集多个d s p 于一体的高性能 d s p 芯片1 m s 3 2 c s x 等以及目前速度最快的第六代d s p 芯片1 m s 3 2 0 c 6 2 ) 骺7 x 等。t i 公司为世界最大d s p 芯片供应商,其d s p 市场占有量占全世界份额近5 0 n 。 d s p 芯片的选择要综合考虑d s p 芯片的运算速度、芯片价格、硬件资源、运算 精度和芯片功耗等因素。基于语音编码器g , 7 2 9 a 的实际需要以及t i 公司近年推出 的适于各种有线和无线通信系统采用的c 5 4 xd s p 高性能及低功耗的优良特性,在 本文中采用t m s 3 2 0 c 5 4 1 61 6 位定点d s p 芯片的硬件平台来实现该语音编码器。 1 ,4本文的主要研究内容和研究思路 本文详细研究了g 7 2 9 a 基于t m s 3 2 0 c 5 4 1 6d s p s 实时实现的设计与开发,在 讨论了语音编码关键技术和g 7 2 9 a 标准算法后,对g 7 2 9 a 实现的c 程序进行分析, 再重点论述了g 7 2 9 a 在t m s 3 2 0 c 5 4 1 6 型d s p s 上实时实现的软、硬件设计开发的 过程和技术。最后输入语音信号对该声码器测试并进行性能分析。本文共分为六章。 第一章概述了语音数字压缩技术。第二、三章介绍了语音编码的基本原理和g 7 2 9 a 编解码器的算法,第四章介绍了g 7 2 9 a 的实现的c 程序,第五章详述了使用 t m s 3 2 0 c 5 4 1 6 软、硬件开发和设计。最后一章是对本文进行了工作总结。 4 第二章a b s - l p c 编码技术原理 g r 7 2 9 a 是基于按台成分析一线性预测编码( a b s l p c ) 技术的波形和参数混台编 码器,它采用全极点模型描述声道,用线性预测( l m e a rp r e d i c 畦o n ,l p ) 方法提取 声道参数,并使用合成分析法( a b s ) ,利用听觉加权均方误差最小判决准则,闭环 确定激励参数。其中,语音信号生成数字模型的建立是参数编码理论的前提。所以下 面从语音信号形成机理开始着手,从而构造出语音信号生成的数字模型,再接着对 a b s - l p c 方案的编码技术进行讨论。 2 1语音信号的形成机理 人类发声器官的工作情况如图2 1 所示。肺及有关的呼吸肌肉是激励源。气流由 气管呼出首先经过声门( 声带开口处) 。当发浊音时,声带振动调制气流,产生一 系列的离散脉冲。被调制的气流再经过咽腔和口腔,必要时,软颚打开还有鼻腔加入。 发不同的音,口腔张开的程度不同,舌在口中的位置不同,从而使各空腔的容积发生 变化,以致当气流经过时要产生许多共振最后从口和鼻以声波的形式辐射出来。当 发清音时,声带不振动,但在喉至唇通道的不同部位,有的是对气流先阻塞然后迅速 打开,即塞音,如b 、d 、g :有的是形成一狭窄通道产生摩擦,即擦音,如f 、s 、h ; 有的兼有阻塞和摩擦,如j 、曲、z 。气流同样受到各空腔的共振作用。图2 2 为数字 “零”发音时域图。谚图很好的说明清音具有随机噪声特性和浊音的周期性特性。 “零”发音时域图。该图很好的说明清音具有随机噪声特性和浊音的周期性特性。 闰2 1 声音形成机理 鼻椿出 、1 1 l 口冀出 图2 2 数字“零”的波形围 昆明理工大学硕士学位论文 2 2语音信号生成模型 气流流过声道犹如通过一个具有某种谐振特性的腔体。输出气流的频率特性既取 决于声门脉冲串的特性,又取决于声道的特性。为了便于分析,可以把声道当做段 无损声管。一个实际声道的近似模型是用( p + 1 ) 段均匀无损的短声管串接来表示的。 r 广一 u 唇 图2 3 用p 段无损均匀声管串接来遇进实际声道 它是一根从声门延伸到口唇的非均匀截面的声管,其外形变化是时间的函数,则 可以用空气动力学方程解出其传输函数为一个p 阶全极点函数。这样,声道相当于一 个具有零极点分布的滤波器,气流通过该滤波器产生相应的频响输出。 人们根据语音形成的机理,并经过对语音信号大量的分析、模拟和实验。得到语 音信号产生的离散时域模型( 也即参数模型) 。如图2 4 所示。它由激励源、声道模 型和辐射模型组成。浊音的激励源由一个周期脉冲发生器产生,脉冲周期即是基音周 期。为使浊音的激励信号具有声门气流脉冲的时间波形,需使脉冲序列通过一个声门 脉冲模型滤波器c ( z ) 。根据模拟实验令g ( z ) = t o g l z “) ( 1 一g :z 。1 ) ,g 。“1 ,g :“1 ,由 之形成浊音激励信号频谱很接近声门气流脉冲的频谱。清音激励源为随机噪声信号, 其平均值为0 ,均方差为1 ,还假定它的幅度具有正态概率分布。乘系数4 ,和4 ,的作 用是调节语音信号幅度或能量。浊音清音开关的位置决定产生语音是浊音还是清音。 图2 4 语音信号发生器的模型框图 第二章a b s - l p c 编码技术原理 声道模型v ( z ) 给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加 以研究,采用流体力学的方法可以导出,在大多数的情况下它是一个全极点滤波器。 这样v ( z ) 可以表示为: 咐= 了l , 函一 i - - o :蔗数 - , 这里,把截面积连续变化的声管近似为,段短声管的串联,每段短声管的截面积是不 变的。p 称为这个全极点滤波器的阶。 辐射模型r ( z ) 与嘴形有关,根据模拟r ( z ) - i p a 表示为g ( z ) = ( 卜肛“) ,rw 1 。 根据这个模型,离散时域语音信号s ( n ) 的z 变换s ( z ) 可用一个统一公式来计算: s ( z ) = a e ( z ) ( z ) ( 2 2 ) 在浊音的情况下,e 0 ) 是一个周期脉冲激序列的z 变换且a = a 。 h ( z ) = g ( z ) g ( z ) r ( z ) 。在清音的情况下,e ( z ) 是一个随机噪声的z 变换且a = a , 日( z ) = 矿( z ) r ( z ) 。 2 3 语音信号的线性预测分析技术 语音信号的特征是随时间变化的。只有在一段短时间内,语音信号有些星随机噪 声的特性( 清音) ,有些成周期性的特征( 浊音) 。这种“短时性”是语音信号的重要 特点。因此,语音信号数字处理的算法和技术都建立在“短时”的基础上。 2 3 1 帧和窗函数 在语音编码中,按时间块对语音信号进行处理的。在语音编码器中处理最大的时 间块称之为“帧”,在进行处理时,按帧从数据区中取出数据,处理完后再取下一帧, 等等。绝大多数情况下,帧长为2 0 m s ( 当f s = s k i - i z 时,相应于每帧有1 6 0 个样点) 左右。要处理的那段语音信号一般都需要窗函数w ( n ) 来确定,在窗区域之外的信号 输出为零。在语音编码中常用的窗函数有矩形窗、哈明窗、哈宁窗等。如哈明窗为: f 0 胙:其它 以哪_ 0 5 4 + 0 6 4 c o s i 惫_ n 1 一h n = 0 n - i ( 2 _ 3 ) n 为帧长。加窗语音信号为s 。( n ) j 。( n ) = s ( n ) w ( n ) 。该信号为后续处理信号。 7 昆明理工大学硕士学位论文 2 3 2 语音信号的线性预测分析 在语音中存在着两种类型的相关性,即在样点间的短时相关性和相邻基音周期之 间的长时相关性。而信号中所存在结构性相关,就意昧若冗余度,它能够在传输之前 除去,从而降低信息速率。除去语音信号中的冗余度,就必须利用其相关性。可以除 去语音信号中冗余度方法有很多,如同态处理法,但由于其复杂度较高。性能未见显 著提高,因此很少采用。目前广泛采用的是线性预测编码,通常称为l p c 分析。在 l p c 分析中,语音样点之间的短期相关被模型化,并用一个很有效的低阶滤波器除掉。 另一个同样有力的方法是基音预测法。在基音预测中,语音样点的长期相关被模型化。 语音信号生成的简化模型如图2 5 所示,该图是图2 4 的简化。在这个模型中, 输入的激励信号有脉冲序列( 浊音) 或随机噪声( 清音) 的任一种来模拟。而声门气 流、声道和嘴唇的合成贡献,具有稳态系统函数的数字时变特性,能够用一个近似的 全极点模型表示,给出为: 一罴2 而g 2 南 4 ) 公 图2 5 语音信号生成的源滤波器简化模型方框图 把上式变换到采样的时间域,得到 p j ( n ) = g x ( n ) 一e 口,s ( n - o ( 2 5 ) 式( 2 5 ) 即为l p c 差分方程,它表示现在输出值s ( n ) ,是由现在输入样点的加权和 过去输出样点的加权之和确定。 用p 。个已知的样值s ( n 一1 ) ,s ( n 一2 ) ,s ( n p ) 取某种线性组合来预测未知的样值 s ( n ) 。如果用j ( h ) 表示这个未知样值的预测值,则j ( h ) 可表示为: r 第二章a b s l p c 编码技术原理 p 童( 聆) = 一a i s ( 以一f ) ( 2 - 6 ) i = l 其中d 称为预测系数。预测值j ( n ) 和真值s ( n ) 之间的预测误差s ( n ) 为 占( 朋) = s ( 九) 拿( 门) = j ( n ) + 口f s ( 胛一f ) ( 2 7 ) i = 1 用s ( ”) 的均方值= f 来衡量线性预测的质量。仃:越接近于零,预测的准确度 在均方误差最小的意义上最佳。 对于一个特定的语音序列,口;取决于p 。和各个系数口,。如果能找到一个特定的 阶数p + 和一组预测系数,使盯;达到最小值,则这组系数称为最佳预测系数,用a ,表 示。 易证明,在语音信号处理颁域中,模型阶数尸一般选在8 1 2 之间,预测系数p 。 = p 为盯:最小的一个必要条件。下面求得最佳预测系数色。 盯;= s ( ) + q s ( n f ) 2 = s 2 ( n ) + 2 吼 s ( 一女) s ( 哟 十吼q s ( 疗一k ) s ( n 1 ) ) ( 2 8 ) 月t t l月_ 1f t l” 求解仃;对a 1 a p 这p 个变量偏导数为0 的联立的p 个方程所得到的解即是使盯;达 到最小的一组最优预测系数磊a ,。推导出户个方程的如下表达式: 三 :舀f ( 是,f ) = 一痧( 1 j ,o ) ,k = 1 , 2 ,p( 2 9 ) 1 = 1 其中妒( ,i ) = s ( n k ) s ( n i ) 。这称为一组l p c 正规方程。这样求a 。的问题归结为 这一组p 个线性方程求解的问题。 在语音信号数字处理领域中,求解l p c 正规方程组基本采用对语音信号s ( n ) 加 窗而导出自相关解法,并利用l e v i n s o n - d u r b i n 递推算法求解算法。从而我们得到预 测系数口,i = 1 , 2 ,p 。利用l e v i n s o n d u r b i n 递推算法求解l p c 正规方程组见附录a 。 应用l p c 可以实现低速率( 2 4 k b f s 或更低速率) 语音编码。以1 9 8 2 年t h o m a se t r e m a i n 发表的“政府标准线性预测编码算法l p c 一1 0 ”为l p c 声码器的典型应用。 但此种应用在不考虑信道误码的情况下,才能有较好的编码质量。一旦恶化,编码质 量急剧下降。其原因在于:低比特编码器一般将预测系数a , j 4 l n 传送到解码器。由 于传输信道误码的客观存在,如果直接传送口,则在接收端的a 会发生变化,而a 的 少量变化导到滤波器频谱很多的变化,甚至会使滤波器不稳定。 为了避免系数a ,直接量化带来的不稳定性,需将预测系数a i 进行变换,再对变换 后的参数进行量化。最常用的变换形式为线谱对( l s p ,l i n es p e c t r u mp a i r ) 或称为 线谱频率( l s f ,l i n es p e c t r u mf r e q u e n c y ) 。下面说明l s p 或l s f 参数定义。 9 垦望堡三查兰塑主堂焦鲨苎 设有一p 阶线性预测滤波器( z ) = 1 + 口。z ,用爿( z ) 构成两个( p + 1 ) 阶多项 式p ( z ) 年n q ( z ) 如下: p ( z ) = a ( z ) + z - ( p + i ) a ( z 。) ( 2 1 0 ) q ( z ) = a ( z ) 一z 一“一( z 一1 ) ( 2 1 1 ) 显然,p ( z ) 对称,q ( z ) 非对称,且 爿( z ) :丝姿塑 ( 2 1 2 ) p ( z ) * o q ( z ) 具有如下三个重要性质: a ) p ( z ) 和o ( z ) 所有的零点都在单位圆上: b ) 尸( z ) 和o ( z ) 所有零点交错出现 c ) 尸( z ) 和q ( z ) 的零点在量化后极易保持a ( z ) 相位的最小值。 由于p ( z ) 和q ( z ) 的零点都在单位圆上,故它们可用e x p j w 表达,即 p ( e x p j w ) 和q ( e x p j w ) 。w 即称为线谱频率( l s f ) ,c o s w 称为线谱对( l s p ) 。p ( z ) 有 零点- 1 ( w = 石) ,q ( z ) 有零点1 ( w = 0 ) 。即在0 和刀时不携带语音特征。除l 零点 外,p ( z ) * n q ( z ) 分别有个共轭零点。因此,p ( z ) 和q ( z ) 可写成: z 2 p ( z ) = ( 1 + z 1 ) n ( 1 一z 。1 8 “) ( 1 一z 。p ) z : ( 2 1 3 ) 口, 、一 = ( 1 + z 1 ) n ( 1 - 2 c o s w i z 。+ z t ) j # l ,2 q ( z ) = ( 1 - z 。) 兀( 1 一z 。e 埔) ( 1 - z 。e 1 8 ) 篡(214)2 p , 、一 = ( 1 - z 。) n ( 1 2 e o s $ ,z 。+ z 4 ) 其中,w l ( 1 i p 2 ) 为p ( z ) 共轭零点相位,即对称多项式的l s f 。鼠( 1 s i p 2 ) 为 q ( z ) 共轭零点相位,即非对称多项式的l s f 。且w f 和只在( o ,万) 区间内交错出现,即: 0 w i 最 w 2 0 2 m 岛 w 4 岛 w 5 岛 刀( 2 1 5 ) 这样,我们就把“( z ) 的预测系数a 。转换成l s p 形式,它们在数学上是等价的。 根据性质,l s p 参数更能保证全极点滤波器。l s p 具有误差相互独立的性质,即在某 个频点上的l s p 偏差只对该附件的语音频谱产生影响,而对其它的l s p 上的语音频 谱影响不大。这有利于l s p 量化和内插。 若已知l s p 参数,求口,的方法是按照尸( = ) 和q ( z ) 的根分别求出p ( z ) 和q ( z ) ,然 后再构成a ( z ) = t ( z ) 2 + q ( z ) 2 ,从而求出a ,。 在l p c 分析的实际实现中,还需要考虑滤波器的阶数p 和分析帧的大小。在 语音信号处理领域中,模型阶数p 一般选在8 1 2 之间,就能够精确模拟声道了。帧 1 0 第二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江黑河市逊克县乡村医生公开招聘19人考前自测高频考点模拟试题附答案详解(完整版)
- 2025广东湛江市坡头区社会保险基金管理局招聘编外人员1人模拟试卷及答案详解(考点梳理)
- 2025黑龙江绥化市明水县人民医院招聘中医医生考前自测高频考点模拟试题及答案详解(全优)
- 2025年佳木斯抚远市人民法院公开招聘聘用制人员模拟试卷有答案详解
- 2025江苏南通市兴东街道招聘综合行政执法辅助人员3人考前自测高频考点模拟试题及答案详解1套
- 2025年烟台莱州市卫健系统所属事业单位公开招聘工作人员(47人)考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025年福建省漳州市诏安县消防救援大队政府专职消防员招聘10人模拟试卷附答案详解(考试直接用)
- 2025广东河源市连平县政务服务和数据管理局招聘编外人员2人考前自测高频考点模拟试题及答案详解(历年真题)
- 2025贵州中医药大学第一附属医院高层次人才引才13人模拟试卷及答案详解(夺冠)
- 2025河北秦皇岛工业职业技术学院招聘3人考前自测高频考点模拟试题附答案详解(典型题)
- 2025年度国家电投校园招聘模拟试卷及答案详解(历年真题)
- 钢厂吊装安全培训课件
- 德育教育 课题申报书
- 维生素D佝偻病课件
- 液压实训安全培训课件
- 义齿行业安全教育培训课件
- 第8课《回忆鲁迅先生》公开课一等奖创新教学设计 统编版语文八年级上册
- 胆结石课件教学课件
- 第2课《中国人首次进入自己的空间站》课件+2025-2026学年统编版语文八年级上册
- 耳灸疗法护理操作规范
- 2025年卫生知识健康教育知识竞赛-医疗质量与安全管理知识竞赛历年参考题库含答案解析(5套典型题)
评论
0/150
提交评论