已阅读5页,还剩63页未读, 继续免费阅读
(信号与信息处理专业论文)g7231标准在tms320vc5402上的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 ( 在现代各种通信系统中,话音通信一直是一项重要的、必不可少的业务。 随着通信网络用户数量的增加、网络业务更加综合化、多样化,系统容量、服 务质量与网络带宽的矛盾也日益突出,如何在不牺牲语音通话质量的前提下尽 可能降低话音信号传输的比特速率是摆在研究者面前的重要课题。同时,由于 用数字化的方法进行语音信号处理是目前发展最为迅速的信息学研究领域之 一,由此诞生了许多种语音压缩处理方法。i t u t 也在此基础之上提出了一系 、 列关于低速率语音编码的解决方案,g 7 2 3 1 标准就是其中之一。文 本文首先从语音产生的离散数字模型出发,简要叙述了低速率语音编码的 基本原理。然后文章对获得广泛应用( 并且也是g 7 2 3 1 标准的基础) 的线性 预测编码声码器的些关键技术进行了详细的论述。 在g 7 2 3 1 标准的实现过程中,我们首先建立了语音编码硬件基础,基于t i 公司的t m s 3 2 0 c 5 4 x x 系列d s p 平台,对此做了比较详细的介绍。然后,从系 统级的角度剖析了g 7 2 3 1 标准的结构,并提出了在t m s 3 2 0 c5 4 0 2 上实现该 标准的一个解决方案。最后讨论了该方案实现过程中所遇到的一些问题及其解 决方法。 最后,考虑到算法标准本身的不断改进 降低算法复杂度的问题,在论文的最后一章 速率及复杂度等问题作了一些探索。 以及具体实现中需要重点考虑的 就如何进一步降低编解码算法的 【关键词】低速率语音编码:l p c a c e l p m p e _ m l q g 7 2 3 1d s p a b s t r a c t s p e e c hc o m m u n i c a t i o ni sa ni m p o r t a n ta n di n d i s p e n s a b l es e r v i c ei nd i f f e r e n t m o d e r nc o m n m n i c a t i o n s y s t e m s w i t ht h ei n c r e a s i n go fn e t w o r ku s e r s 、t h ei n t e g r a t i n g a n d d i v e r s i f y i n go f n e t w o r ks e r v i c e ,t h ec o n t r a d i c t i o n sa m o n gb a n d w i d t h ,s y s t e m c a p a c i t ya n ds e r v i c eq u a l i t ya r em o r ea n dm o r eo b v i o u s h o wt or e d u c et h eb i t r a t eo f s p e e c hw i t h o u tr e m a r k a b l yd e g r a d i n gi t sp e r c e p t u a lq u a l i t yi sa q u e s t i o np l a c e da tt h e f r o n to f t h er e s e a r c h e r s a tt h es a l v et i m e ,t h e p r o c e s so f s p e e c hs i g n a lb yd i g i t a li s d e v e l o p e dr a p i d l yi ni n f o r m a t i o ns c i e n c e t h e r ea r em a n yw a y sb e e nb r o u g h tf o r w a r d i nv o i c e c o m p r e s s i t u t h a sa l s op u tf o r w a r das e r i e so f o n e si nl o wr a t es p e e c h c o d e li n c l u d i n gr e c o m m e n d a t i o ng 7 2 3 1 a tf i r s t ,f i o mt h ed i s c r e t ed i g i t a lm o d e lo f t h e s p e e c hg e n e r a t e ,t h i sp a p e rb r i e f l y r e c o u n ts o m eb a s i ct e r m sa n d p r i n c i p l e si nl o w r a t es p e e c h p r o c e s s i n g t h e nf o c u s o n t h er e s e a r c ho f t h el i n e a rp r e d i c t i v ec o d i n g ,w h i c hi su s e dw i d e l y ( a n di st h eb a s eo f g 7 2 3 1t o o ) ,a n dn a r r a t ei nd e t a i ls o m e k e yt e c h n i q u e s i nt h i sa r e a d u r i n g t h ec o n c r e t e l yr e a l i z eo f t h er e c o m m e n d a t i o ng 7 2 3 1 ,w es e tu pt h e h a r d w a r ee l e m e n t so ft h es p e e c h c o d i n g ,w h i c h i st h et m s 3 2 0 c 5 4 x xd s p p l a t f o r m o ft 1i n c w ei n t r o d u c ei ti nt h i sp a p e rt o o ,i nt h ef o l l o w i n gw ed i s c u s st h e f r a m e w o r ko f t h e g 7 2 3 1f r o m t h e s y s t e m a t i c v i e w , a n d b r i n g o u t a b l u e p r i u t o f i m p l e m e n t a t i o n t h i sr e c o m m e n d a t i o n c o m b i n e dt om y w o r k s ,w ee v e ni n t r o d u c et h e p r o b l e m s w em e ta n dt h es o l u t i o n sw ef o u n d a tl a s t ,c o n s i d e r i n gt h ea l g o r i s mi sm e n d e d ,s o m ei n n o v a t i v ei m p r o v e m e n t t h o u g h t so n f u r t h e rr e d u c i n gt h ec o d e r a t ea n dd e c r e a s i n gt h ec o m p l e x i t yo f v o c o d e r s a r ei n c l u d e dj nt h i sd i s s e r t a t i o n 。 【k e y w o r d s 】l o w r a t es p e e c hc o d i n g ,l p c ,a c e l p , m p e _ m l q , g 7 2 3 1 ,d s p i j 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 签名: 日期:莎o 年r 月专阳 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:壶丑土 导师签名: 日期:| 凹 一堕士整塾盔堂堡主兰垡丝塞 1 1 研究目的 第一章引言 通信的目标是尽可能用最小的系统开销,准确可靠地传输用户信息。现代 通信网络存在带宽和系统容量、传输的有效性和可靠性之间的矛盾。伴随着网 络技术、计算机技术、数字信号处理技术、微电子技术的发展,一方面是网络 宽带化,出现了i s d n 、a t m 、d w d m 、h f c 、x d s l 等许多新型的通讯网络技 术,另一方面,网络业务综合化、多样化,网络用户激增,用户对网络服务质 量的要求也在提高。因此,在尽量增大网络带宽的同时,如何尽量利用现有的 基础网络设施,在提高通信容量的同时保护已有投资,就成为研究者的重要课 题。有两条途径可以解决这一难题,其一是研究新的调制方法与技术,来提高 信道的信息传输比特率;其二是压缩信源的编码比特率。前者可参见文献 6 1 本文将以多媒体信源中的语音压缩编码为例,研究如何在信源端尽可能地压缩 语音信息所占用的数据量。 语音数据压缩是以仙农( s h a n n o n ) 提出的以“熵”( e n t r o p y ) 为基础的信 源编码理论为依据的:信源的熵是其所含的信息量的度量,只要信号的传输速 率大于信源的熵,就说明数据还有冗余,可以进行压缩编码。仙农的理论为我 们进行语音压缩指明了方向。 从信息论的角度来估计,语音中最基本的元素是音素,总共约有1 2 8 2 5 6 个音素。如果按通常的说话速度,每秒平均发出i 0 个音素,则信息率为 i = l 0 9 2 ( 2 5 6 ) 1 0 = 8 0 b i t s 从另一角度来估计,把发音看成是以语音速率来发报文。对英语来讲,每 一个字母为7 b i t 编码,每分钟1 2 5 个英语单字可以认为达到了通信语音速率。 如果单字平均由7 个字母组成,则信息率为 i = 7 7 1 2 5 6 0 1 0 0 ( b i t s ) 所以,可以认为语音压缩的极限速率是8 0 1 0 0 b i t s 。当然,这时只能传送 第1 页 第一章引言 句子内容,至于讲话者的音质、音调等重要信息已全部丢失。但是,从标准编 码速率( 6 4 k b i t s ) 到这个极限编码速率间存在的巨大的跨距( 约6 4 0 倍) 。对 于理论研究和实践都有着极大的吸引力 1 4 1 。 从语音信号和人的听觉特性可以找到语音信号压缩的基本依据川。第一, 语音信号的产生机理和结构性质表明,其自身存在很大的冗余度:l ,语音信号 相邻样本的相关性很强;2 ,浊音语音段具有准周期性;3 ,声道的形状及其变化的 速率是有限的;4 ,传输码字的概率分布是不均匀的,j 、信号出现的概率大,大 信号出现的概率小。第二:,人的听觉功能特点的研究表明,强音对弱音的“掩 蔽”现象,对低频比对高频更敏感,对语音信号的相位特性很不敏感。这些都 可以作为我们编码方法的依据,波形编码的大多数方法已经利用了这些特性, 在混合编码中也要利用这些性质。 1 2 现状及方向 语音编码技术的研究,已经取得许多重要的进展” 1 4 1 。在码激励线 性预测c e l p 和多带激励编码m b e 等方面的理论方法和技术实现已经成熟 并实用化,而且在继续进行更深入的研究;近代信号处理理论和数字硬件 领域的巨大发展,为各种复杂的压缩编码算法的实时实现提供了可能;引 入基于主观感觉的失真度衡量,更好的解决了应用产品的性能评价问题; 有关国际标准的制定,为中低速率语音压缩编码技术的研究提供了基础和 动力;数字通信网技术的迅速发展,出现了v o l p 、v o a t m 和v o f r 等新兴 的网络通信形式,为中低速率语音编码提供了充分发挥的舞台。 表1 1 i t u g 系列语音编码协议 第2 页 电子科技大学硕士学位论文 m i p s :m i l l i o n so fi n s t r u c i o n sp e rs e c o n d ,每秒百万条指令 m o s :m e a no p i n i o ns c o r e ,平均意见得分 表1 1 列举了i t u t 制定的一系列关于语音压缩编码的g 系列协议,此外, 其它地区和行业标准化组织还根据自己的需要,制定了相应的语音压缩标准。8 0 年代初,美国联邦标准f s l 0 1 0 1 5 中采用了l p c 1 0 e ,在2 4 k b p s 速率下d r t 得分可达9 0 。1 9 8 5 年基于c e l p 的美国联邦标准f s l 0 1 6 问世,其在4 8 k b p s 速率下m o s 得分可达3 0 以上。1 9 8 9 年,8 k b p s 矢量和激励线性预测编码v s e l p 被选为北美第一代数字移动通信网i s 一5 4 的语音编码标准。 作为欧洲电信标准化组织的e t s l ,于1 9 8 8 年制定了1 3 k b i t s 的泛欧数字移 动通信g s m 语音编码标准r p e l t p ( 规则脉冲激励一长时预测编码) 。国际化协 作组织3 g p p ,于1 9 9 8 年经过严格试验,通过了用于g s m 和w c d m a 系统的 自适应多速率语音编码标准a m r 。目前,速率为2 4 k b p s 左右最好的语音编码 器,无论在性能还是在实用化方面都已达到相当的水平。 语音编码技术的发展方向:低速率、低时延、低复杂度和高质量。实现的 基本途径只有两条,利用语音信号本身的冗余度以及人耳的听觉特征。一方面 是从语音的产生和感知对其进行研究,这与语音学、语言学、认知科学、心理 学和神经心理学等密不可分。另一方面是将语音作为一种信号进行处理,包括 传统的数字信号处理技术以及一些新的应用于语音信号的处理方法及技术。 1 3 研究结果 在本论文相关的课题研究中,我克服了种种困难,从i t u t 公布的语音编 码标准原理入手,分析了g 7 2 3 1 双速率语音压缩编码标准的构成机理及其实 现模块框图,完成了g 7 2 3 1 编解码原理分析报告,并结合当前先进的 t m s 3 2 0 c 5 4 x x 系列数字信号处理芯片,提出了g 7 2 3 1 的定点d s p 实现方案。 研究的重点是以下几个方面 语音产生的数字滤波器模型 语音的线性预测编码和矢量量化技术 第3 页 第一章引言 g 7 2 3 1 实现的硬件环境 g ,7 2 3 1 的定点d s p 实现需要注意的问题。 最后在t i 公司的t m s 3 2 0 c 5 4 0 2 d s k 开发板上,按照上述方案实现了该项 设计,其程序运行可靠,话音比较清晰。 由于语音信号处理毕竟是一个发展日新月异的领域,其涉及范围除了数字 信号处理外,还包括语音学、语言学、数理统计学以及神经生理学等学科。受 到本人水平的限制,文章中的不足之处不可避免,在此恳请各位老师和同学提 出宝贵意见。 第4 页 电子科技大学硕士学位论文 第二章语音编码技术基础 本章从语音产生的离散数字模型出发,简要介绍语音压缩中用到的一些短 时分析技术以及语音压缩编码算法的分类。 2 1 语音信号产生的数字模型 为了定量描述语音处理所涉及到的某些因素,虽然已经假定了许多不同的 模型,但是可以肯定,目前还没有发现种可以详细描述人类语音中已观察到 的全部特征的模型( 由于它的复杂性,也许不可能找到一个理想的模型) 。建立 模型的基本准则是要寻求一种可以表达定物理状态下的数学关系,要使这种 关系不仅具有最大的精确度,而且还要最简单。 我们希望模型既是线性的又是时不变的,这是最理想的模型。但是,语音 信号是一个时变过程,根据语音的产生机理,不能精确地满足这两种性质。此 外,声门和声道相互耦合,还形成语音信号的非线性特征。然而,作出一些合 理的假设,在较短的时间间隔内表示语音信号时,可以采用如图2 1 所示的线 性时不变模型,尽可能的逼近实际的语音产生过程。这里,语音信号被看成是 线性时不变系统( 声道) 在随机噪声或准周期脉冲序列激励下的输出。这一模 型用数字滤波器原理加以公式化后,就成为本文下面部分讨论语音处理技术的 基础。 声道参数 图2 1 语音信号产生的数字模型 第5 页 信号 第二章语音编码技术基础 该模型分为三部分:激励源,声道模型和辐射模型。 长期研究证明,发不同性质的音时,激励的情况是不同的,大致分为两大 类:】) 浊音( v o i c e ) 。此时气流在通过绷紧的声带时,冲激声带产生振动,使声 门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同时,振 动频率也不同。该频率就是音调频率,用,。表示,其倒数为音调周期,用r 。表 示。不同人的音调频率是不同的,男性的r 大约分布在6 0 2 0 0 h z 范围内,女 性和小孩说话者的r 值在 。2 0 ) f f 清1 2 0 0 4 5 0 h z 之n音( u n v o i c e ) 。此时声带松弛而 不振动,气流通过声门直接进入声道,明显具有随机噪声的特点。 羽2 - - 2 表示浊音的波形和功率谱密度p s d ( p o w e rs p e c i a ld e n s i t y ) ,基音周 期大约为8m s 。图2 3 表示清音的波形和功率谱密度p s d 4 0 0 0 3 0 0 0 0 0 1 0 0 0 釜0 1 0 0 0 m o o 3 0 0 0 柏0 0 湖 6 0 0 4 0 0 2 0 0 藿0 2 0 0 4 0 0 6 0 0 8 0 0 图2 - 2 ( a ) 浊音段的波形举例 图2 3 r a 、清音段的波形举例图2 - 3 m 、清音段的功率谱密度举例 由于清音和浊音在性质上有很大的不同,因此在建立激励模型时,也要加 以区分。发浊音时,由于声带的不断张开和关闭,将产生间歇的脉冲波。根据 第6 页 电子科技大学硕士学位论文 测量结果,这个脉冲波类似于斜三角形的脉冲。因此,激励信号是一个以基音 周期为周期的斜三角脉冲串。单个斜三角波的z 变换为: q 力。瓦捋 叫 可以用一个周期脉冲发生器,产生冲激信号,通过一个声门波模型滤波器 g ( z ) ,来得到浊音的激励脉冲串。乘系数a 。的目的,是调节浊音的幅度和能量。 整个激励模型可以表示为: 脚比,2 南南( 2 - - 2 ) 发清音时,声道被阻形成湍流,所以可以模拟成白噪声。产生的随机噪声 序列均值为o ,方差为1 ,在时间上呈白色分布。乘系数a n 的目的是调节清音的 幅度和能量。 声道可以看作是一个谐振腔,有许多自然谐振频率( 在这些频率上其传递 函数具有极大值) ,放大某些频率分量而衰减某些频率分量。这些谐振频率称为 共振峰频率,简称为共振峰( f o r m a n t s ) 。共振峰与声道的形状和大小有关,一 种形状对应一种共振峰。其模型在大多数情况下是一个全极点函数 矿( :) : d ,为常系数 ( 2 3 ) 1 一叩“ 其中p 是极点个数,称为这个滤波器的阶,g 是振幅因子,a l 是常系数。 最后一个模型是辐射模型r ( z ) ,它表征1 2 1 和唇的辐射效应。它是一阶后向 差分。 r ( z ) = r o ( 1 一z “) ( 2 4 ) 把上面三个子模型串连起来,就可以得到完整的语音信号数字模型的转移 函数: h(z)=u(z)v(z)r(z)(2-5) 需要指出的是,式( 2 - - 5 ) 所示模型是一种“短时”的模型,因为在式中 除g ( z ) 和r ( z ) 外,系数a 。和声道模型参数8 l a d 都随时间变化,但由于发音器 官的惯性,这些参数的变化速度受到限制。声道参数在1 0 3 0 m s p q 可以认为保持 不变。因而可以把语音信号分成一段一段来加以分析,每一段称为一帧( f r a m e ) 。 g7 2 3l 协议中所取的帧长就是3 0 m s 。 第二章语音编码技术基础 2 2 语音信号的短时分析技术 贯穿于语音分析全过程的是“短时分析技术”。根据对语音信号的研究,其 特性随时间变化,所以是一个非稳态的过程。但是,从另一方面看,语音信号 在一个短时间范围内,特性基本保持不变,因而可以看作是一个准稳态 ( q u a s i s t a t i o n a r y ) 的过程。这就是语音信号的重要特性“短时性”。对于 语音信号的分析和处理必须建立在短时的基础上。 2 2 1 语音信号的采样,量化和预处理 为了将原始的模拟语音信号变为数字信号,必须经过取样和量化两个步骤, 从而得到时间和幅度上都离散的数字语音信号。根据取样定理,当取样频率大 于信号的两倍带宽时,取样过程中不会丢失信息,且从取样信号中可以精确地 重构原始信号波形。 电话语音的频率范围在3 0 0 3 4 0 0 h z ,因而取样频率一般取8 k h z 。为了实 现更高质量的语音合成,或使语音识别系统获得更高的识别率,有的现代语音 处理系统语音频率的高端扩展到7 9 k h z 。相应的,取样率也提高到1 5 - - 2 0 k h z 。 因此,在信号带宽不明确时,在取样前应该接入反混叠滤波器( 低通滤波器) , 将其带宽限制在某个范围内,否则会导致高频失真。 取样之后要进行量化,量化过程不可避免的要产生误差。量化后的信号值 与原信号之间的差值称为量化误差,又称为量化噪声。如果信号波形的变化足 够大,或量化的间隔足够小,可以证明量化噪声符合具有下列特性的统计模 型:( 1 ) 它是一个平稳的白噪声过程;( 2 ) 量化噪声和输入信号不相关;( 3 ) 量化噪声在量化间隔内均匀分布,即具有等概率密度分布。进一步可以推导出 量化器中的每b i t 字长对信噪比s n r ( 信号与量化噪声的功率之比) 的贡献为 6 d b ,当量化字长b = 7 b i t 时,s n r = 3 5 d b 。此时量化后的语音质量能满足一般 通信系统的要求1 6 1 0 然而,研究表明,语音波形的动态范围达5 5 d b ,故量化字 长b 应取1 0 b i t 以上。为了在语音信号变化的范围内保持3 5 d b 的信噪比,常用 第8 页 电子科技大学硕士学位论文 1 2 b i t 来量化,其中附加的5 b i t 用于补偿3 0 d b 左右的输入动态变化。在本文后 面的g 7 2 3 1 实现中,采用的是1 6 b i t 的量化字长,以确保获得的语音信号的质 量。 语音信号在进行分析和处理之前,必须进行预处理。预处理除了前谣讨论 的数字化外,还包括加窗、放大及增益控制、反混叠滤波、预加重等。一帧语 音信号s ( n ) 在进步处理前,往往要经过加窗处理,即用一定的窗函数w ( n ) 来 乘j ( n ) ,从而形成加窗语音信号s w o ) 。在语音数字信号处理中常用的窗是矩形 窗和海明窗( h a m m i n gw i n d o w ) 。它们的表达式如下( 其中n 为帧长) 矩形窗函数: f 1 0 n 1 w ( n ) 2 矗其他 ( 2 6 海明窗函数: 州:j 吣吨。s c o s ( 篙) ,嘶洲叫 。2 刊 10 ,其他 2 2 2 语音信号的短时能量、平均幅度和过零率 这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中 都要进一步使用。 语音信号的能量分析,是基于语音信号的能量有相当大的变化,特别是清 音段的能量比一般浊音段小得多。能量分析包括能量和幅度两个方面。 定义起点为n n + 1 的语音信号的短时平均能量为 e 。= s :如) = i s ) w o 一州) 】2 ( 2 8 ) n j n + l一n + i 由此可知,不同窗1 5 1 的选择,将决定短时能量的特性。为此应该选择合适 的窗1 5 1 ,使其平均能量更好地反映语音信号的幅度变化。短时平均能量的主要 用途是:( 1 ) 可以区分清音段与浊音段,因为浊音段e 的值比清音段大得多。 ( 2 ) 可以用来区分有声与无声的分界,连字( 指字之间无间隔) 的分界。( 3 ) 作为一种超音段信息,用于语音识别中。 第9 页 第二章语音编码技术基础 但是,e 值对于高电平信号特别敏感,又定义了另一种度量语音信号幅度 值变化的函数,短时平均幅度必,其公式为 m ,k = 1 s o ,) w ( ”一) ( 2 - - 9 ) 短时平均幅度也是一帧语音信号能量大小的表征。它用加权信号的绝对值 之和,来代替平方和,计算上也比较简单,在某些应用领域中用它表示能量会 带来一些好处。 过零就是指信号通过零值。对于数字信号,如果相邻的取样值改变符号则 称为过零。过零数就是样本改变符号的次数,单位时间里的过零数称为平均过 零率。当窗起点为n = 0 时,语音信号的短时过零率用z 。表示 z 。:; 艺1 s g n k 。( n ) 一s g n b 。o 一1 ( 2 一l o ) z o = 1 sn k 。( n ) 一sn b 。0 1 ( 2 一 in = lj 对于语音信号序列,可以用短时平均过零数来得到其频谱的粗略估计。 2 2 3 语音信号豹短时自相关函数、频谱以及基音周期 设s 。0 ) 是一段加窗语音信号,它的非零区阔为n = 0 ( 一1 ) 。s 。( 疗) 的自 关函数,称为语音信号j 如) 的短时自相关函数,用月。( f ) 表示,计算公式为: - i - 1 月。( ,) = ( 刀沁。o + ,) = ( 功j 。仍+ ,) ( 2 1 1 ) j n = o 易于证明,五。( f ) 是偶函数;r 。( f ) 在一n i n 区间以外恒为o ;r w o ) 的最 大值在1 = 0 处,且r w ( 0 ) 等于加窗语音的平方和。 s w ( 一) 的离散时域傅立叶变换( d t f t ) s w ( e ”) 称为s ( n ) 的短时频谱,可 以用下列公式计算: 一l s we j , o ) = s 。( n ) p 。 ( 2 1 2 ) n = o 短时自相关函数和短时频谱是语音信号非常重要的一对短时参数,分别在 时域和频域中表征语音信号的一些主要特征。但是计算自相关函数的运算量很 大,为了简化运算并达到自相关函数的作用,又定义了一个函数短时平均 幅度差函数( a m d f ) 儿( ,) ,它的计算公式为: 嚣1 0 面 电子科技大学硕士学位论文 短 时 幅 度 差 1 5 原 始一 语 音 。 一- 】 y 。( f ) = i s 。( ”+ ,) ( 2 1 3 ) 图2 - 4 浊音信号及其短时自相关和短时幅度差示例 从图2 - 4 可以看出,浊音信号的短时自关函数也呈现出明显的周期性,且 周期等于原始语音s ( ,z ) 的周期:相反,清音信号由于具有随机噪声的特点,它 的短时自相关函数a 。( f ) 不具有周期性,且随着j 的增大而迅速减小。因此可以 利用这个特点来判断一个语音是浊音还是清音,同时还可以以此确定一个浊音 的基音周期( 或基音频率) 。在决定基音周期时,利用的是短时自相关函数在基 音周期的各整数倍点上具有较高的峰值的特点。 对于浊音信号s ( n ) ,y 。( ,) 也呈现周期性。与r ,( f ) j ;目反的是,( ,) 在周 期的各个整数倍上具有谷值而不是峰值。用a m d f 进行基音周期估计,有以下 特点:( 1 ) 在基音周期点,它的谷点锐度较之短时自相关函数的峰点更尖锐, 第1 i 页 第二章语音编码技术基础 因而估计精度更高、更稳健。( 2 ) a m d f 的计算只涉及加减和求绝对值,而自 相关则需要相乘运算,因而前者的运算更加简单和快捷。( 3 ) a m d f 对于语音 信号幅度的快速变化比较敏感,它影响估计的精度。 在估计基音周期时,无论是r 。( ,) 还是,。( 7 ) 计算所用的钆( 疗) 中应使用矩 形窗。为了改善估计结果,窗的宽度应选得比2 0 m s 更长一些,以使凡( h ) 包含 有足够多个语音周期。 此外,为了消除共振峰的干扰,可以采取以下改进的方法求短时基音周期: 用一个带宽为6 0 9 0 0 h z 的带通滤波器对语音信号进行滤波,并利用滤 波信号的自相关函数进行基音估计。 让语音信号通过一个线性预测( l p c ) 逆滤波器,并通过求其残差信 号的自相关函数来估计基音周期。 对语音信号进行非线性变换后( 例如“中心削波”) 再求自相关函数。 无论用哪一种算法求得的基音周期轨迹,与真实的基因周期轨迹不可能完 全吻合。为了减小这种误差,可以采用各种平滑算法,其中最常用的是中值平 滑和线性平滑算法。 2 3 语音压缩编码方法的分类 自从2 0 世纪3 0 年代末,脉冲编码调制p c m 原理以及声码器( v o c o d e r ) 概念提出以来,语音信号编码一直沿着这两个方向发展,逐步形成了语音信号 的波形编码( w a v e f 0 h nc o d i n g ) 和参数编码( p a r a m e t e rc o d i n g ) 。近年来,语音编 码技术有了突破性的进展,产生了新一代的参数编码算法,即混合编码。 2 3 1 波形编码器 波形编码器力图使重建语音波形保持原始语音信号的波形形状。这类编码 器通常将语音信号作为一般的波形信号来处理,具有适应能力强,语音质量好 等优点,但需要较高的编码速率。脉冲编码调制( p c m ) 、自适应增量调制( a d m ) 、 自适应差分调制( a d p c m ) 、自适应预测编码( a p c ) 、自适应子带编n ( a s g c ,a d a p t i v e 第1 2 页 电子科技大学硕士学位论文 s u b b a n dc o d i n g ) 和自适应变换编码( a t c ,a d a p t i v e t r a n s f o r m c o d i n g ) 等,都属 于这类编码器。它们分别在1 6 k - - 6 4 k b p s 的速率上给出较高的编码质量,但当 速率进一步降低时,性能下降很快。 2 3 2 参数编码器 参数编码通过对语音信号的特征参数( 时域或频域) 的提取及编码,力图 使重建的语音信号具有尽可能高的可读性,即保持原语音的语意,而重建信号 的波形与原语音信号的波形相比可能会有相当大的差别。这种话音编译码器叫 做声码器( v o c o d e r ) 。其优点是编码速率低,甚至低于2 4 k b p s 以下。它的主 要问题是,合成语音的质量较差,特别是自然度较低,连熟人都不一定听得出 讲话人是谁。此外,这类编码器对讲话噪声比较敏感,需要安静的环境才能给 出较高的可懂度。 2 3 3 混合编码器 计算机的发展为语音信号编码技术的研究提供了强有力的工具。大规模, 超大规模集成电路的出现,为语音编码的实现提供了基础。自2 0 世纪7 0 、8 0 年代以来,语音编码技术有了突破性进展,提出了一些非常有效的处理方法, 产生了新一代的参数编码方法,这就是混合编码,从而构成了新一代的声码器。 这种算法克服了原有的波形编码器与声码器的弱点,结合了他们的长处,在4 k 一1 6 k b p s 速率上能够得到高质量的合成语音,在本质上也具有波形编码的优点。 多脉冲激励线性预测编码( m p l p c ) 、规则脉冲激励线性预测编码( r p e l p c ) 和 码本激励线性预测编码( c e l p ) 等都属于这类新参数编码器。 第1 3 页 第三章基于线性预测分析的语音处理技术 第三章基于线性预测分析的语音处理技术 线性预测( l i n e a rp r e d i c t i o n ) 技术在1 9 6 7 年由板仓等人最早应用到语音分 析和合成中。它作为一种极为有效的语音分析技术,被普遍运用于语音信号处 理的各个方面。它能够极为精确地估计语音参数,用极少的参数有效而又正确 地表现语音波形及其频谱的性质,而且可以用比较简单的计算和比较快的速度 求得参数。 3 1线性预测分析的基本原理 线性预测分析所包含的基本概念是,一个语音的采样值能够用过去若干个 语音采样值的线性组合来逼近。通过计算实际语音采样值和线性预测采样值之 间差值的平方和( 在一个有限间隔上) ,使其达到最小值,即进行最小均方误差 的逼近,能够决定唯一的一组预测加权系数。如果利用p 个样值来进行预测, 就称为p 阶线性预测。 根据上一章所讨论的语音信号产生的数字模型,可以把语音信号s ( z ) 看作 是一个线性时不变因果稳定系统h ( z ) ,受到信号u ( z ) 激励后产生的输出,如图 3 1 所示。在时域中,语音信号s ( n ) 是该系统的单位冲激响应h ( n ) 和激励信号 u ( n ) 的卷积。 u ( n )s ( n ) h ( z ) 图3 1 语音信号s ( n ) 产生的简化模型 为了简化计算,通常假定系统h ( z ) 只包含有限数目的极点而没有零点,理 论和实践证明,这样的假设是合理的乜1 。这种模型称为“全极点模型”或“a r 模型”。 对于全极点模型,系统传输函数可以表示为 第1 4 页 电子科技大学硕士学位论文 肿丽g 。五g : ( 3 1 ) 上式中,g 是增益因子,p 是滤波器的阶数,a ,是滤波器的系数,a ( z ) 被称之为 逆滤波器。这时,对h ( n ) 和u ( n ) 的求解就可以归结为对滤波器参数日,进行估计。 相应地,得到s ( n ) 和u ( n ) 在时域之间的关系如下: p s ( 月) = q s ( n - i ) + g u ( n ) ( 3 2 ) = 】 如下系统 , j ( ) = d ,s ( n - i ) ( 3 3 ) i = 1 称为线性预测器。其中,j ( 胛) 是由与s ( n ) 邻近的过去j d 个值线性组合得到的, 故又称为线性预测值,a 称为线性预测系数。 信号值s ( n ) 与预测值j ( 胛) 之差称为线性预测误差,用e ( n ) 表示,即: , e ( n ) = j ( n ) 一j ( n ) = s ( n ) - 口,s ( n - i ) ( 3 4 ) ,= 1 式( 3 - - 4 ) 表明,预测误差序列e ( n ) 是把s ( n ) 作为输入,通过转移函数为 a ( z ) 的系统后的输出结果。 d j 观察到的语音信号直接决定一组预测器系数 a ,是线性预测中要解决 的一个最基本的问题。如果采用最小均方误差( m m s e ,m i n i m u mm e a ns q u a r e e r r o r ) 准则对a r 模型参数进行估计,就得到著名的线性预测编码( l p c ,l i n e a r p r e d i c t i v ec o d i n g ) 算法。预测在最小均方误差意义上是最佳的,其意思就是, 预测系数a ,应按预测误差均方值最小的准则来确定,即: 占= e e2 ( - ) 】= m i n ( 3 5 ) 为了根据式( 3 - 5 ) 所表述的最小均方误差准则决定预测系数a ,对( 3 - 5 ) 式关于a 求偏导数,并令所得结果等于零,即: 兰:一2 五) 掣 _ o l ,户 ( 3 6 ) o a so a j 由式( 3 4 ) 知, 第1 5 页 第三章基于线性预测分析的语音处理技术 一o :e 一( n ) - - s ( 一,)1,sp(3-7) ( j “ 将式( 3 7 ) 代入式( 3 - 6 ) ,得: e e ( n ) s ( n 一,) = 0l j p( 3 - - 8 ) 这是线性预测中个很重要的结论,称为正交方程。它表明:预测误差与 信号过去的p 个样值是正交的。将式( 3 - 4 ) 代入( 3 - 8 ) 式,还可以得到: e s ( n ) s ( n - ,) 一口。j ( n i ) s ( n j ) 】= o l i p ,1 ,p ( 3 9 ) ,= j 如果定义信号s ( n ) 的自相关函数为: r ( j i ) = e b ( n i ) s ( n j ) 】1 l p ,1 j p ( 3 - - 1 0 ) 那么式( 3 9 ) 可以写为如下形式 d ,r ( j - f ) = r ( ,) 1 j p ,i 卜举p ( 3 1 1 ) i = 1 这就是线性预测的又一个很重要的结果,通常称之为正则方程。它告诉我 们,在信号的自相关函数r ( j - i ) 已知的情况下,可以通过求解此方程得到线性 预测系数a ,由此求出的a i 使得州p2 ( n ) 】为最小,或者说使输出功率最小。 所以: 。;m i n e 【pz ( 月) :r ( o ) 一杰叩( f ) 1sj p ( 3 - - 1 2 ) 式( 3 1 1 ) 和( 3 1 2 ) 即构成了平稳信号的线性预测误差的求解方程: 扣川= 船吖;,茹( 3 - - 1 3 ) 上式就是著名的y u l e w a l k e r 方程。它是由p + 1 个线性方程构成的方程组, 其中包含包含p + 1 个未知数( p 个预测系数和一个最小均方误差值f 。) ,己知 数据是信号的自相关函数r ( j i ) 。显然,为解出所有的p + 1 个未知数,需要知 道p + 1 个自相关函数值。可以采用递归的思想来解这种方程,其中最常用的是 l e v i n s o n d u r b i n 算法。该算法的具体内容参见【5 l 。 第1 6 页 电子科技大学硕士学位论文 3 2 线谱对( l s p ) 和线谱频率( l s f ) 在语音压缩编码中,由于合成滤波器系数日动态范围太大,量化误差及传 输中导致的误差极容易使合成滤波器不稳定。因此,在求得滤波器系数后,往 往还要将其转换为在数学意义上与之完全等价的,代表语音短时频谱特性的特 征参数l s p ( l i n e _ s p e c t r u mp a i r ) 或l s f ( l i n e _ s p e c t r u mf r e q u e n c y ) 。 设有p 阶最佳逆滤波器盈力= l 一q z 一 ,p 为偶数。用五( z ) 构成如下两 = 1 个p + i 阶多项式p ( 力和q ( 力: f p ( z ) = 夤( z ) + z 一( ,州j ( z 一) i q ( 2 ) = 五( 三) 一z 一( ,+ 1 ) j ( z 一1 ) 可以证明,j d ( z ) 和q ( z ) 分别是对称与反对称多项式。 p ( z ) 和q ( z ) 可表示成如下的因式分解形式: p ( z ) = ( 1 + z - i ) 兀( 1 2 z c o s c o ,+ 2 - 2 ) j c l ,2 q ( z ) = ( 1 一z 一1 ) f i ( 1 2 z 一c o s o , + 2 - 2 ) ( 3 1 4 ) 当p 为偶数时 ( 3 一1 5 ) ( 3 1 6 ) 式中c o f 和日按如下方式排列: 0 l 0 l p 2 8 ) & o x o f f ,i n d 将作为t a b l e 表的索引,且t a b l e i n d = y 1 ,而s h f t 将用 于偏移修正。则 y 3 - - t a b l e i n d + ( t a b l e i n d + 1 - t a b l e i n d 1 s h r 2 5 6 已知y 3 求x 3 时( 由l s p 计算l s f 时用到) ,设p 1 对应的等分点在t a b l e 中的索引是i n d ,则 x 3 = i n d + 2 5 6 + ( y 3 - t a b l e i n d ) ( t a b l e i n d + 1 一t a b l e i n d 、2 5 6 在实现中还有一类的运算,就是那些使用频率很高的定点数的算术和逻辑 运算。对于此类函数的实现,我们必须用汇编语言来实现才能保证我们算法的 高效性和实时性。在定点d s p 中的乘法运算如下图所示( 两个q 8 的数相乘) : sx x sy y xxxxx y y yy y s s z zzz zzzz z z z zzz s z z zzzz z z zzz z zz z 如果直接存储到 d s p 中将产生错误 必须左移一位才 正确 图5 1 2 两个q 8 定点数相乘 从图5 1 2 中我们可以看出,两个q 8 的小数相乘之后我们必须再额外左 第5 2 页 叫 电子科技大学硕士学位论文 移一位才能得到正确的结果,结果是一个q 1 6 的数。通过把d s p 中c p u 状态 寄存器中的f r c t 位置1 后,这个操作可以自动的完成。 我们还可以看出,按照这种规则,如果是两个1 6 b i t 的数相乘,得到的结果 是一个3 2 b i t 的数,但是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盐田工程工程师考试试卷及答案
- 研磨浆料过滤技术员岗位招聘考试试卷及答案
- 压缩机配件选型工程师岗位招聘考试试卷及答案
- 2026年江苏省泰兴市高二生物下册期末考试测试卷附参考答案【B卷】
- 2026年吉林省梅河口市高二生物下册期末考试试卷附答案(突破训练)
- 2026年四川省华蓥市高二生物下册期末考试测试卷带答案(新)
- 2026年江苏省丹阳市高二生物下册期末考试模拟卷附答案【B卷】
- 2025年江西省乐平市高二生物下册期末考试试卷及完整答案【名校卷】
- 2026年广东省南雄市高二生物下册期末考试考试卷含完整答案【典优】
- 2025年黑龙江省虎林市高二生物下册期末考试检测卷(巩固)附答案
- 2024年浙江省普通高中学业水平适应性考试历史试题(含答案)
- 生命哲学:爱、美与死亡智慧树知到期末考试答案章节答案2024年四川大学
- 数字贸易学 课件 第12章 消费者行为与权益
- 扫描电镜课件
- 2022年物业项目经理岗位招聘考核试题库(附含答案)
- 医院质量与安全管理架构图
- 张北凯嘉罗矿业有限公司河北省张北县石头囫囵闪锌矿矿山地质环境保护与土地复垦方案
- 电子证据诉讼实务培训
- 英语电影赏析(山东联盟)智慧树知到答案章节测试2023年山东科技大学
- 作文素材积累:《心灵奇旅》-平凡的人也有独特的价值
- GB/T 19672-2021管线阀门技术条件
评论
0/150
提交评论