




已阅读5页,还剩85页未读, 继续免费阅读
(信号与信息处理专业论文)基于arm的码激励线性预测编解码系统的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 2 1 世纪,随着数字信号处理技术的发展,语音信号能够被转换成电信号后 再压缩成编码,方便的进行传输或存储。由于在语音的传输中,带宽意味着成 本,而经过压缩编码的语音信号能够节约带宽;在语音的存储中,存储器容量 也意味着成本,而语音的压缩编码能够显著的提高存储器的利用率。被编码后 的语音也不会象模拟信号对噪声敏感,且易于进行差错保护、加密、复用和打 包。因此,语音信号进行压缩编码,在语音的传输和数字存储中都具有重要意 义,在当今的通讯领域,语音压缩编码技术扮演着最基本和最重要的角色。 通常的语音处理编解码都是基于d s p 的平台实现,本文尝试在a r m 嵌入 式平台上实现码激励线性预测编解码系统。 论文首先叙述语音信号处理和线性预测编码基础知识,随后把重点放在应 用广泛的码激励线性预测( c e l p ) 编码上。在此基础上系统地阐述了码激励线性 预测的相关理论、模型及其实现编解码关键算法。结合c e l p 编码算法理论模型。 在p c ( p e r s o n a lc o m p u t e r ) 机上独立开发了c e l p 源代码。对c e l p 关键技术实现, 详细进行了阐述,并给出了相应实现子程序。并且深入学习了嵌入式处理器 a r m 9 编程知识。尝试把p c 机上开发的c e l p 浮点代码转换定点代码,移植到 a r m 9 平台上,在a r m 9 嵌入式平台上实现c e l p 编解码系统。 关键词:码激励线性预测;语音编码;a r m a b s t r a c t a b s t r a c t i nt h e2 1 t hc e n t u r i e s ,a l o n g 谢t ht h ee l e c t r o l l i c st e c t l i l i c a ld e v e l o p i n e m ,t h e s p e e c hs i g n a lc a i lb ec o n v e n e di n t oe l e c t r i cs i g n a la 1 1 dc o m p r e s s e d ,s om e 仃a n s i m i 廿i o no rs t o m g eo ft h es p e e c hs i g l l a lb e c o m e sm o r ea i l dm o r ec o n v e n i e n ta i l d e f f i c i e m i ns p e e c hc o m m l l i c a t i o n ,b a n d w i d t hm e a n sc o s t ,a n dt h ec o m p r e s s i o n c o d i n gc a l ls a v eb a n d w i d t h s m e m o r yc a p a c i t ya l s om e a l l sc o s “nm es t o r a g eo f s p e e c ha n dt h es p e e c hc o m p r e s s i o nc o d i n g c a l le n l l a i l c e s t o r a g ee m c i e n c y c o m p r e s s e ds p e e c hi sn o to n l ym u c hl e s ss e n s i t i v i t yt h a na n a l o gs i g n a l ,b u ta l s om o r e c o n v e n i e n tf o re r r o rc o n t r o l i n ge n c r p ”i o n t e c h n i q u c st i m e - m u l t i p l e x i n ga n d p a c k a g e t h e r e f o r e ,c o m p r e s s i o nc o d i n go ft h es p e e c hs i g n a lp l a ya i li m p o n a n tr o l ei ns p e e c h c o m m u n i c a t i o na n dd i g i t a ls a v i n g u s u a l l y ,s p e e c hs i g n a lp m c e s s i n gi sr e a l i z e do nd s pp l a t f o r r n s i n l i st h e s i s , c o d e e x c i t e dl i n e a rp r e d i c t i o nc o d e cs y s t e m ,b a s e do na r m ,i st r i e dt oi m p l e m e m t h em a j o rw o r ko ft h e s i si sa sf o l l o w s a tt h eb e g i n n i n go f 1 et h e s i s ,s p e e c h p r o c e s s i n ga 1 1 dl i n e a rp r e d i c t i o nc o d i l l g ( l p c ) i sd e s c r i b e d t h ek e yp a r t so ft h i s t h e s i sa d d r e s st h ei m p l e m e n t a t i o no f c o d e e x c i t e d1 i n e a rp r e d i c i o nc o d e c a t t h es 锄e t i m e ,s o m ei m p o r t a l 】ta l g o r i t h m sa 1 1 dc e l p ( c o d e e x c i t e dl i n e a rp r e d i c t i o n ) m o d e l so f s p e e c hs i g n a l sa r ee x 辨嚏i a t e di nd e t a i l n o to n l yi sn o a t p o i n tc o d e sp r o g m m m e df o r c e l pm o d e l ,u s e dc l a i l g u a g eo nt h ep c ( p e r s o n a lc o m p u t e r ) p l a t f o m ,b u ta l s ot h e a r mp r o g r m n m i n gi ss t u d i e d ,a n df l o a t i n g - p o 缸o fp ci st r i e dt oc o n v e r ti n t o f i x e d p o i n to na r mp l a t f o mt oi i l l p l e m e n tt h ec o d e - e x c i t e dl i n e a rp r e d i c t i o nc o d e c s y s t e mb a s e do n 删 k e yw o r d s :c e l p ;s p e c c hc o d i n g ;a r m 学位论文独创性卢明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名( 手写) : 永签字日期:叩年f 砂髟日 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌盍堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:猫导导师签名:夕彝貉琊 i 签字日期:洲年i 五月以。日签字日期:砷年。月了日 第1 章绪论 第1 章绪论 1 1 引言 语音是人类交流信息最直接、最自然、最有效的基本手段。随着当代科技 飞速发展,语音处理技术在最近几十年中取得了重大发展。语音处理技术的四 大分支一语音增强、语音编码、语音合成和语音识别都在蓬勃发展。语音压缩 编码技术是数字语音处理技术的一个分支,它也是语音数字化传输和存储的基 础。在语音信号数字处理过程中,语音编码技术是至关重要的。为了使同样的 信道容量能够传输更多的语音信号和节省存储空间,通过语音编码技术,可以 尽可能的减少传输码率或存储量,以提高传输或存储的效率,以及保持语音的 可懂度和音质。因此,语音压缩编码技术在当代人们生活的诸多领域发挥着无 可替代的作用。例如:移动通信、i p 电话、大容量语音存储等。巨大的应用前 景,推动了语音编码技术的飞速发展。从上个世纪7 0 年代g 7 1 16 4 k b s 脉冲编 码调制( p c m ) 语音编码标准,至41 9 9 6 年国际电信联盟( i t u ) 公布的g 7 2 98 k b ,s 共轭结构代数码激励线性预测( c s - a c e l p ) 语音编码标准,人们对语音信号的认 识不断深入,语音编码方案也在不断改进。多年来,语音编码一直是人们研究 的热点问题。随着计算机和芯片技术的发展,特别是语音通信和各种语音产品 的普及,语音信号的数字化处理已在许多领域中发挥巨大的作用。一个完备的 语音信号处理系统不但应具备语音信号的采集和回放功能,更重要的是要能完 成复杂的语音信号分析和处理【”。通常这些处理运算量大,又要满足实时或准实 时快速高效处理的要求。现在通常采用的是高速d s p 芯片【2 引。近年来,a r m 通用微处理器获得了迅猛的发展,低成本、易丌发的a r m 处理器已经开始受到 广泛的关注,在语音信号处理得到的较大的应用【4 ,5 】。 1 2 国内外研究历史和现状及面临的问题 语音编码研究始于1 9 3 9 年美国的h o m e rd u d l e y 发明声码器以来,语音处理 丌始了编码方面的研究。2 0 世纪6 0 年代中后期,s a t o ,i t a k u r a 和a t a l ,s c h r o e d e r 研究出实用的共振峰声码器,最早把线形预测( l p c ) 技术应用到语音分析及合 成。1 9 6 6 年,j lf l a i l a g a n 提出了以瞬时频率为基础的相位声码器【6 o1 9 6 9 年, 第l 章绪论 a v0 p p e l l l l e i m 提出了以倒谱为基础的同态声码器【7 j o 在众多声码器中,l p c 声码器终因其成熟的算法和参数的精确估计成为研究的主流,并逐步走向实用。 1 9 8 2 年,美国国家安全局( n s a ) 公布了2 4k b s 的l p c 1 0 声码器标准( f s 一1 0 1 5 ) 。 1 9 8 4 年,美国国防部采用2 4k b s 的l p c 1 0 e 增强型。 从1 9 8 5 年b s a t a l 和m r s c h r o e d a r 提出c e l p 算法以来,闭环分析算法 ( l p a b s ) 成为主流。美国国防部公布了4 8 k b sc e l p 联邦标准( f s 1 0 16 ) 。欧洲电 讯管理局( g s m l 于1 9 8 8 年公布了1 3 k b sr p e l t p 线性预测语音编码方案1 9 8 9 年,北美蜂窝电话工业组织( c t u a ) 公布了i s 5 4 ,8 k b s 矢量和激励线性预测 ( v s e l p ) 语音编码方案( 日本:6 7 k b s ) 1 9 9 2 年,c c i t t 公布了g 7 2 81 6 k b s 短时 延码激励线性预测语音编码f l d g e l p ) 方案,1 9 9 5 年公布了g 7 2 3 5 3 6 3 k b s a c e l p m l q 双速率多媒体语音编码准,1 9 9 6 年公布了g 7 2 98 k b sc s a c e l p 对 结构代数码激励的语音编码标准。在这1 0 年中就产生了3 个国际标准、2 个地 区性标准和2 个国家标准,可见语音压缩编码的研究发展之快。这些算法的共 同特点是采用闭环l p a b s 算法、知觉加权技术、复合窗技术、l s p ( l s f ) 技术、 后置滤波技术、增益自适应技术、分数基音内插技术等。另外,多带激励( m b e ) 【8 】、 自适应变换编码( a t c l 【9 】和子带编码等语音压缩编码的实用方案也有进展,它们 都属于正弦编码。国际海事卫星组织( i n m a r s a t ) 于1 9 9 0 年公布了4 1 5 k b s 改进型 多带激励( i m b e ) 语音编码标准。因此,在这1 0 年中,c e l p 算法是语音压缩 编码的主流。 近年来随着第三代移动通信的发展,变速率语音压缩编码技术相应得到发 展。为了充分利用c d m a 技术,o u a l c o m m 于1 9 9 3 年提出了可变速率的c e l p , 通常称为q c e l p 【1 0 】。它有4 个可供选择的传输速率( 1 ,2 ,4 ,8k b s ) ,通过计算输入 能量,并与三个值能量比较来选择传输速率。这种技术己成为北美数字蜂窝通 信标准( c t i a i s 9 5 ) 。1 9 9 9 年公布的第三代伙伴计( 3 哪g e n e r a t i o np a m l e r s l l i p p r o j e c t ) 把自适应多速率( a m r ) 语音编解码作为主要技术。该技术有8 种速率( 1 2 2 , l o 2 ,7 9 5 ,7 4 0 ,6 7 0 ,5 9 0 ,5 1 5 ,4 7 5 k b s ) 供选择,并采用语音激活技术( w o ) 、舒 适背景噪声( c n a ) 、源控速率( s c r ) ,重帧及误码消除( e c u ) 、抗稀疏处理等先进 技术。它能根据信道质量选择不同的编码速率,通信质量接近或达到长途电话 质量。变速率语音压缩编码理论上仍属于c e l p ,但在“变”上有新的研究,引 入了相关的先进技术。随着因特网的发展,语音i p 【1 2 1 ( v o i p ) 对语音压缩编码的需 求十分迫切。在h 3 2 3 系列建议中规定了音频编解码算法符合i t u 标准,如 2 第1 章绪论 g 7 l l ( a 律或p 律) 、g 7 2 2 ,g 7 2 3 1 ,g 7 2 8 。g 7 2 9 a 等。但问题在于数据包在网上 传送延迟时间有时太长( i t u tg 1 9 2 建议环路延迟应保持在3 0 0 m s 以下) ,会 影响v o i p 作为电话的使用。更低码率的声码器语音识别声码器可做到6 0 0 b s 【1 4 报道,并有待更深入研究。主要利用相邻帧间的语音频谱特征的变化程度作为 语音相似程度的衡量依据,通过逐帧跟踪共振峰的变化来确定帧参数的发送, 此算法码率做到6 0 0 b s ,但有些音已不可懂,若采用帧问插值的算法会更精确。 基于上述语音编码的发展过程,可以把语音编码主要分为3 类:即波形编 码、参数编码和混合编码。波形编码将语音信号作为一般的波形信号来处理, 它力图使重建语音波形保持原语音信号的波形形状,具有适应能力强、话音质 量好等优点,但压缩能力差,编码速率高,它们在6 4 1 6 k b s 的速率上能给出 高的编码质量,但编码速率进一步降低时,其性能迅速下降。参数编码则通过 对语音信号特征参数进行提取和编码,力图使重建语音信号具有尽可能高的可 懂度,而重建信号的波形同原语音信号的波形可能会有相当大的差别。参数编 码的优点是编码速率低,可以低到2 4 k b s 以下,但合成语音的质量较差,自然 度较低,对背景噪声的坚韧性较小。混合编码则克服了波形编码和参数编码的 弱点,同时又结合了二者各自的长处,可以在4 1 6k b s 速率上得到高质量的合 成语音。如码激励线性预测( c e l p l 语音编码就是一种典型的混合编码方法。 由于语音信号本身存在很大冗余度和人耳的听觉感知机理,全语音进行压 缩编码成为了可能。即只是对语音信号主观上非常重要的属性进行编码,并把 他们进行存储或者进行传输。这样,即使在低比特率的情况也能保持合成语音 的高质量。从语音的角度来看,语音中最进本的单位是音素,世界上语音的音 素一般约为1 2 8 2 5 6 个,如果按照通常的说话速度,每秒平均发出1 0 个音素。 那么根据信息论的观点,此时的信息率为,= l o g ,( 2 5 6 1 ”= 8 0 ( b i “s 1 ,从语言的角 度来看,把发音看成是以语音的速率来发报文。对英语来说,每一个字母用7 b 诬 编码,每分钟发1 2 5 个英语单字可以认为达到了通信语音速率。如果每个单字 平均由7 个字母组成,则此时的信息率为,= 7 7 ( 1 2 5 6 0 1 约等于1 0 0 b i “s 。所 以,一般可以认为语音编码的极限速率大约为8 0 b i “s 1 0 0 b i “s 。当然这时只能 传送内容,而被传送人的音质、音调等重要信息己全部丢失。但是,从标准的 语音编码速率( 6 4 k b s ) 到语音编码的极限速率( 8 0 b i “s 1 0 0 b i t s ) 之间还存在大约 6 4 0 倍的跨距,这对于理论和实践研究有着很大的吸引力。因此,在基于目前的 理论和实践研究的基础上,只有刨出新的理论和方法,才能在这方面取得突破, 第1 章绪论 语音编码才会有一个飞跃【1 5 】。 1 3 本文的研究意义和主要工作 研究意义: 在语音信号数字处理过程中,语音编码技术是至关重要的。为了使同样的 信道容量能够传输更多的语音信号和节省存储空间,通过语音编码解码技术, 可以尽可能的减少传输码率或存储量,以提高传输或存储的效率,以及保持语 音的可懂度和音质。 通常的信号处理是基于d s p 或者是a r m 和专用d s p 两者结合( a r m 作为 系统控制,d s p 作语音信号处理) 。由于在语音信号处理中,语音信号的频率相 对较低,因此,本项目中仅使用a r m 通用处理器来完成语音信号处理和整个系 统控制功能,实现基于a r m 的码激励线性预测编解码系统,获得具有较好音质 且较高的压缩的语音信号。该系统的主要特点是:在a r m 9 上对语音信号实现 码激励线性编码和解码功能,从而达到推动语音编码和a r m 技术技术的应用和 发展。 主要工作: 1 、通过阅读大量国内外文献和资料,了解熟悉并掌握语音信号处理和各类 语音编码的基础知识,并研究其中的主要的编码算法。 2 、根据码激励线性预测语音编码算法模型,在p c 机上实现该模型的浮点 代码。 3 、通过阅读a i t m 技术文档和参考资料学习a r m 嵌入式编程技术和系统 设计。 4 、把p c 机上浮点代码改成能够在a i t m 上运行的定点代码,实现具有码 激励线性预测编解码功能的系统。 4 第2 章语音编码基础 第2 章语音编码基础 2 1 语音的数字处理基础 2 1 1 语音信号数字化 进行语音信号数字处理时,最先接触到并且也是最直观的是它的时域波形。 为了获取一段语音信号的时域波形,首先将语音通过麦克风转换成电信号,这 样就得到的“连续时间”语音波形,通过一个抗混叠滤波器后,进行采样( 离散 时间转换) ,采样结束后在经过一a d 波形变换器( 均匀量化) 。这个被量化后的 语音信号采样值我们就称它为数字语音信号。 2 1 2 语音信号的产生模型 1 、语音信号的基本特征m 1 语音信号频谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。为了防止信号发生 混叠,根据奈奎斯特采样理论,采样速率必须是连续时间语音信号带宽的2 倍。 如果用一个抗混叠的带通滤波器将此范围内的语音信号频谱分量取出,然后按 8 k h z 采样率对语音信号进行采样,就可以得到离散时域的语音信号。语音信号 的另一重要特点是它的“短时性”。语音信号的特征是随时暗j 而变化的。只有在 一短段时间隔中,语音信号才保持相对稳定一致的特征,这段短时问一般可取 为5 5 0 m s 。因此,对于语音信号的分析和处理必须建立在“短时”的基础上。 语音信号的最基本组成单位是音素。音素可分成“浊音”和“清音”两大 类。浊音( v o i c e ) 是受声门脉冲气流的激励而产生的。这一周期气流脉冲串的周期 称为“基音周期”,用表示,其倒数称为“基音频率”,用后或日表示。局 值取决于声带的尺寸和特性,也决定于它所受的张力。基音频率也就是浊音声 带的振动基频,凡随时间变化,它的不同轨迹称为声调。而清音( u n v o i c e ) 是利用 口腔内存有的空气释放出来而发声,具有随机噪声的特点,此时声门几乎完全 封闭。在短时分析的基础上可判断一短段语音属于哪一类。如果是浊音段,还 可测定它的另一些重要参数,如基音和共振峰等。 2 、语音信号的模型7 】 人类语音产生能够用一个相当简单的模型结构束产生:肺产生空气或者动 第2 章语音编码基础 力激励声道,这个过程被描述为一个白噪声源的产生。声道通路包括整个身体 相关联的部分被看作是一个时变滤波器。声音产生过程在图2 1 中给出。这个简 单的模型是许多语音编码算法的核心模型。 喜 时变滤波器 由f 列组成 气管 咽喉 鼻腔 鼻孔 嘴 图2 1 生理产生过程【2 8 】 图2 2 给出了语音产生的离散时域模型【1 8 】。它包括三个部分:激励源、声道 模型和辐射模型。激励源分浊音和清音两个分支,按照浊音清音开关所处的位 置来决定产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个周期 脉冲发生器产生。所产生的序列是一个周期为 ,的冲激序列,即每隔个点便 有一个样值为1 ,而其它样值皆为0 。周期取决于基音频率只和语音信号的采 样频率,= 瑶,其中和厂皆以h z 计量。当产8 k h z ,磊的变化范围为 5 0 4 5 0 h z 时,的变化范围是1 8 1 6 0 。为了使浊音的激励信号具有声门气流 脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器。清 音的情况下,激励信号由一个随机噪声发生器产生。声道模型v f z l 可看成是一 个全极点函数,可以表示为: v 0 ) = 一 ( 2 1 ) 亨口z 1 篙 其中口o = 1 ,口。为实数: 图2 2 语音产生离散模型【1 7 j 6 第2 章语音编码基础 声道模型中除了声门脉冲模型g ( z ) 和辐射模型r ( z ) 保持不变外,f 、_ v 、 一u 、浊音清音开关的位置以及声道模型中的参数口l 嘞都是随时间而变化的。 由于发声器官的惯性使这些参数的变化速度受到限制,对于声道参数,在1 0 3 0 m s 的时问间隔内可以认为它们保持不变,因此语音的短时分析帧长一般可在 这一范围内选定。 2 1 3 语音信号的短时分析技术 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在 “短时”基础上。 l 、数字化语音信号的存储及加窗 已数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般 用循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量 极大的语音数据( 己处理过的语音数据可以依次抛弃,让出存储空l 日j 来存入新 数据) 。在进行处理时,按帧从此数据区中取出数据,处理完成后再取下一帧, 等等。在取数据时,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值 一般取为0 1 2 ,图2 3 给出了帧移与帧长之比为洲时各前后帧的相对关系。 卜研z 一砂+ l 叫 二二二二二二二二二二二二二二二二二二二二二 x 例 _ h n o s ( 一i j + n i 工1 ( 二 ( n ) 图2 3 帧长和帧移的关系 2 8 】 己取出的一帧语音j ( ) 要经过加窗处理,这就是用给定的窗函数w ( h ) 束乘 s ( ”) ,从而形成加窗语音s ( 聆) * w ( 胛) 。在语音信号数字处理中常用的窗函数是 第2 章语音编码基础 矩形窗和汉明窗,因为这两种窗函数具有短时平稳特性。它们的时域波形和频 域响应分别表示在图2 4 中。设时域窗长为工,频域主瓣宽度为订,旁瓣高度为 6 ,则可以看出,矩形窗主瓣最小,但旁瓣最高;汉明窗具有最宽的主瓣,和最 低的旁瓣高度。从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高, 汉明窗可以有效克服泄漏现象,具有平滑的低通特性,因而得到广泛应用。 矩形窗: ,、f = 1 o s 疗三一1 坝仃) 2 1 :o 其他( 2 2 ) 汉明窗 删= 盛篓文2 棚他。1 ”眍胚卜1 0 加 - 帕 捌 1 0 勰 舶 艟 1 矿 o l 图2 4 矩形窗和汉明窗的时域波形和频域响应 2 、语音信号的短时能量、短时平均幅度和短时过零率 当窗的起点甩= o 时,语音信号的短时能量用昂表示,其计算公式如下: 昂= ( 肝) 当窗起点为肛o 时,语音信号的短时平均幅度用j j l 如表示, 毕籀& 删 ( 2 3 ) ( 2 4 ) 其计算公式为: ( 2 5 ) 这也是一帧语音信号能量大小的表征。 短时能量标志语音信号在计算长度内的幅度大小,可以由它的量值粗略判 8 第2 章语音编码基础 断语音信号的有无,同时也可以由它判断该帧是浊音还是辅音。一般浊音的短 时能量大于辅音。实际信号处理中,一般不单独计算语音帧的能量,利用自相 关法求解l p c 系数的过程中,自相关序列的第一个值就代表了帧能量。 当窗起点为,尸o 时,语音信号的短时过零率用z n 表示,以表示一帧语音信 号波形穿过横轴( 零电平) 的次数,它可以用相邻两个取样改变符号的次数来计 算如下: z 。= 寻 窆旧 s 。( 一) _ s g n s 。( 川) | ( 2 6 ) ,、f 1 当x o 8 9 1 1 例。1 1凯 o 由短时过零率可以概略地得到信号的变化快慢。短时过零率和短时能量一 样,也可以表征清音与浊音帧,区别语音的有无。清音具有较高的过零率。但 过零率容易收到噪声电平的扰动,一般实际应用中多设置一个门限电平,以使 过零率检测有一定的抗干扰性。准确地检测语音开始需要用短时能量和过零率 配合来检测,这对语音识别问题有较大的影响。汉语中大多是以清音为声母, 浊音多作为韵母,这样使用短时能量可较准确地捕捉语音结尾。一般实际应用 中采用双门限检测法。它的原理是先设置一个较高的门限能量值乃,由短时能 量判别出语音终点和一个初始的起点,然后由过零率门限乃判别出准确的语音 起点。 磊、 如和z o 都是随机参数,但是对于不同性质的语音它们具有不同的概率 分布。能够实现有声无声判决以及更细致浊音清音判决,依据在于不同性质 的语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有 一致的语音特性,它们不会随着不同的语音改变而随机跳动。 3 、语音信号的短时自关函数和短时频谱 钆( 胛) 的自关函数称为语音信号j ( 疗) 的短时自关函数,用r 。( f ) 表示,它的 计算公式是: 一,一1 月。( ,) = j 。( ”) s 。( 栉+ ,) = j 。( 胛) j 。( 聆+ ,) ( 2 7 ) & ( 疗) 的离散时域傅取叶变换( d t f t ) ( e x p ( j w ) ) 称为s ( 胛) 的短时频谱,可 以用下列公式计算: 9 第2 章语音编码基础 钆( e x p ( j 缈) ) = s 。( 胛) e x p ( 一j n ) ( 2 8 ) n = o k ( e x p ( j 甜) ) 6 :为s ( 疗) 的短时功率谱a 4 、短时基音周期估计 1 、基于求短时自关函数的基音周期估训1 9 】 如果厂( ) 是一个浊音性的周期信号,那么它的短时自关函数也呈现出明显 的周期性,而且民( ,) 的周期即等于( 胛) 的周期。相反,清音语音接近于随机 噪声,它的短时自关函数不具有周期性但随着,的增大而迅速减小。因此可以利 用这个特点来判断一个语音是浊音还是清音,还可以籍以决定一个浊音的基音 周期( 或基音频率) 。在决定基音周期时,利用了短时自关函数在基音周期的各整 数倍点上具有较高的峰起值如图2 5 所示。另一种更有效的方法是让语音信号 通过一个线性预侧( l p c ) 逆滤波器,并通过求其残差信号的自关函数来估计基音 周期。 图2 5 短时自相关函数法【2 8 】 2 、基于短时a m d f 的基音周期估计 为了求基音周期,还可以用短时平均幅度差函数( a m d f ) o ( ,) ,它的计算公 式是: 一一i o ( ,) = m 糟+ ,) 一( ”) i ( 2 9 ) 对于周期性的s ( 疗) ,o ( 们也呈现周期性,与凡( ,) 相反的是在周期的各个 整数倍点上0 “) 具有谷值而不是峰值,如图2 6 所示。因此可以用o ( ,) 的计算来 确定基音周期。 1 0 第2 章语音编码基础 图2 6 短时a m d f 的基音周期估计【2 8 】 在估计基音周期时,无论是r 。( ,) 还是o ( ,) 计算所用的( 胛) 中应使用方窗。 此外,为了改善估计结果,窗长应选得比2 0 m s 更长一些,以使凡( 胛) 中包含足 够多个语音周期。 2 2 语音信号线形预测基本概念 2 2 1 语音信号线性预测分析原理 1 9 4 7 年维纳首次提出了线形预测( l p ) 这一术语,而板仓等人在1 9 6 7 年首先 将线形预测技术应用到语音分析与合成中。线性预测是一种很重要的技术,普 遍用于语音信号处理各方面,语音编码算法也基本上都用了线性预测技术【1 7 】。 线性预测的基本思想是:语音信号之间都存在一定的相关性,可以用过去 的样本值来预测现在或是未来的样本值,即一个语音的采样能够用过去若干个 语音采样或它们的线性组合来逼近。通过是实际语音采样和线性预测采样之间 的误差在某个准则下达到最小值来决定唯一的一组线性预测系数。 线性预测分析的基本原理是将被分析的信号用一个模型来表示,即将信号 看作是某一个模型( 即系统) 的输出。这样,就可以用模型参数来描述信号。图2 7 是信号s ( 珂) 的模型化框图。图中甜( 挖) 表示模型的输入,j ( 聆) 表示模型的输出。 通常,我们所设定的模型中只包含有限值极点而没有有限值零点,此时系统函 数表示为: ( z ) = a 是实数 ( 2 1 0 ) l 一q z l 图2 7s ( 刀) 模型化框图 l l 第2 章语音编码基础 这种模型称为“全极点模型”或“a r 模型”。式中,各系数口,和增益g 就是模型参数。此时信号就可以用有限数目的参数构成的信号模型来表示。线 性预测分析就是根据己知的s ( ”1 对各参数 珥 和g 进行估计。这里,研系数称为 线性预测系数。线性预测的基本问题是由语音信号直接决定一组预测器系数 研 ,使预测误差在某个准则下最小。如果采用最小均方误差l m s 准则进行估 计,就得到了著名的线性预测分析( l p c ) 算法,这一过程就称为线性预测分析。 根据附面介绍的模型化思想,可以对语音信号建立模型,如图2 8 所示。可 以看出,图2 8 的模型是语音产生模型的一种特殊形式,它将其中的辐射,声道 以及声门激励的全部谱效应简化为一个时变的数字滤波器来等效,其系统函数 为: h ( z ) :塑:if 2 1 1 ) u l 纠1 9 。,一一 鲁“ 这样把s ( ”) 模型化为一个p 阶的a r 模型。因为图2 8 的模型常用来产生合 成语音,故滤波器日( z ) 亦称作合成滤波器。这个模型的参数有:浊音清音判决, 浊音语音的基音增益常数g 及数字滤波器参数 珥 ,( o f p + 1 ) 。当然,这些参数 都是随时f 日j 在缓慢变化的。采用这样一种简化的模型,其主要优点在于能够用 线性预测分析方法对滤波器系数 d 矗和增益常数g 进行非常直接和高效的计算。 图2 8 语音信号模型【1 7 】 2 2 2 语音信号线性预测的基本解法 信号模型化过程实际上必须解决的是参数估计问题,因为信号是客观存在 的,用一个有限数目的参数的模型来表示信号总是存在误差的,或者说通过若 干个极点和零点来表征模型是否太多或者太少,是不能预先准确确定的,更何 厂i | j 酋 囝 第2 章语音编码基础 况信号通常是时变的。因此求解模型的参数( 如上2 1 l 式所示) 仉或者g 的过 程通常是一个逼近过程。逼近方法是,先假定p 的值,然后将输入z f ( ) 送入该 系统,得到的输出将是s ( 盯) ,我们采用某种准则逼近s ( 疗) 。 我们在讨论语音信号的预测分析原理时,假定一个语音样本j f 门1 可以近似 被它过去的口个样本的线性组合所预测,预测样本值: i 面= 艺q j ( 肝一d ( 2 1 2 ) l ;l 式中口0 :口。z 一。 ( 3 1 ) 7 面 这时对v ( 1 和e ( n ) 的求解就可以归结为对各模型参数珥进行估的的算计。 这种模型称为“全极点模型”或“a r 模型”( a r 是a u l or e g r e s s i v e 缩写) 。 如果采用最小均方误差( 简记为m s e ,m s e 是m i n i r i l u ms q u a r ee r r o r 缩写) 准 则对a r 模型参数进行估计,就得到了著名的线性预测编码( l p c ) 算法( l p c 是 l i n e a rp r e d i c t i v ec o d i n g 的缩写) 。 3 3 1 线性预测的基本概念 关于线性预测编码的在第二章2 1 2 节作了较为详细的分析。请参考第二章 2 2 节。 3 3 2 线谱对( l s p ) 和线谱频率( l s d 在语音压缩编码中由于合成滤波器系数嘶动态范围太大,量化误差及传输 中导致的误差极容易使合成滤波器不稳定。因此在求得滤波器系数后,往往还 要将系数转换为数学意义上完全等价的,代表语音短时频谱特性的特征参数 l s p ( l i n es p e c t r u mp a i r ) 或l s f ( l i n es p e c t m mf r e q u e n c y ) 。 l s p 和l s f 的定义如下:设有p 阶合成滤波器: 爿( z ) = q z l ( 3 1 ) 其中研为预测系数,印= 1 ,p 为偶数。用4 ( z ) 构成两个p + 1 阶多项式p ( z ) 和q ( z ) 第3 章码激励线性预测 可以证明,尸( z ) 和q 0 ) 分别是对称与反对称多项式。当p 为偶数时,尸( z ) 和 q ( z ) 可表示成: p ( z ) = ( 1 + z 。) 兀( 1 2 2 1c o s q + z 。) ( 3 3 a ) ,= 2 4 ,p 9 ( z ) = ( 1 一z1 ) 兀( 1 2 2 1c o s q + z 。2 ) ( 3 3 b ) f _ l ,3 ,p 一1 这里假设q 鸭 缈和鲍 畋 国。很显然,e ,f = 1 ,2 ,p 是 多项式p ( z ) 、9 ( z ) 的根,其中 c o s 哆 ,f = 1 ,2 ,p 称为l s p 参数。 q 2 7 c , f - 1 ,2 ,p 称为l s f 参数。必须说明的是z = 1 ( 对应= o ) 和z = 一1 ( 对应 。= 7 【) 也分别是p ( z ) 和q ( z ) 的根,但它们不是l s p 参数。 可以证明j : ( 1 ) 尸( z ) 和q ( z ) 的根都在单位圆上。 ( 2 ) p ( z ) 的根和q ( z ) 的根在单位圆上交错排列。 o = q 哆 + 1 2 冗 由p 个l s p 参数构成的p 维矢量称为l s p 特征矢量。它有以下特点:第一, 两个l s p 特征矢量的畸变可以用它们欧氏距离平方值度量;第二,由任何一个 l s p 特征矢量反向求l p c 合成滤波器4 ( z ) = 1 序( z ) ,所得的声道传输函数必然 是稳定的,这对于语音编码是极其重要的优点;第三,l s p 参数能反映声道幅度 谱的特点,在幅度大处各个的分布较密,反之较疏;第四,改变特征矢量中 某个础的数值,只影响该频率附近的局部幅度谱,这一性质非常有用,例如在 对l s p 进行矢量量化时,可以把特征矢量分裂成多个低维矢量来进行,不仅可 大大减小计算量、存储量和训练量,又使整体质量得到保持。由于l s p 参数众 多的优点,在中、低码率的参数混合编码中,得到广泛的应用。 但是,存在的问题是由l p c 参数求l s p 参数以及反向转换的计算比较复杂, 仍未找到一种高效算法。目前,广泛采用的是利用切比雪夫( c h e b y s h e v ) 多项式 来求解。 力p 、-,、l, o o p p 4 4 叫 棚 虬 “ + 一 、j、j 0 0 4 4 = | f 力力l,l p q ,l 凹 阱 2 f如 第3 章码激励线性预测 ( 1 ) 由预测系数求l s p 的方法 为了消除z = 1 和z = 一1 的两根影响,定义新的多项式: 僻尚 嘶) 2 尚 ( 3 4 a ) ( 3 4 b ) 假设p = 1 0 为偶数,那么每个多项式都有5 对共扼根( e 。“e 。“) 在单位圆上, 因此,这两个多项式又可以表示为: f ( z ) = 兀( 1 2 吼z 。+ 严) ,= l j 9 e ( z ) = 兀( 1 2 吼z 。1 + 严) f = 2 4l o ( 3 5 a ) ( 3 5 b ) 其中研= c o s q ,且满足0 q 哆 q o 7 【。称g l 为余弦的线谱对l s p 。由 于e ( z ) 和e ( z ) 的对称性,所以仅需求出每个多项式的5 个系数就行了。多项 式曩( z ) 和e ( z ) 的系数石( f ) 和石( f ) 有下列递推关系: 石( f + 1 ) = q 。+ 一。一z ( f ) 五( f + 1 ) = q + 一一。+ 石( f ) ( 3 6 a ) ( 3 6 b ) 其中石( o ) = 五( o ) = 1 o ; o f 4 ; 曩( z ) 和e ( z ) 的值用切比雪夫多项式计算。任一多项式在z = e ”处的值写为: f ( 国) = 2 e 1 ”c ( x ) ( 3 7 ) c ( x ) = 正( x ) + ( 1 ) 五( x ) + 厂( 2 ) 五( x ) + 厂( 3 ) 正( x ) + 厂( 4 ) 7 i ( x ) + 厂( 5 ) 2 ( 3 8 ) l ( x ) = c o s ( m 彩) ( 3 9 ) 这罩,乙( x ) = c o s ( m ) 是研阶切比雪夫多项式,厂( f ) ,f 1 ,5 是舅( z ) 或e ( z ) 的系数,由( 3 6 a ) 和( 3 6 b ) 式计算。 计算l s p 系数的方法是将。至尢等分为6 0 点,估算多项式e ( z ) 和e ( z ) 的 值,搜索符号的变化。一个符号的变化表示一个根的存在,随即将符号发生变 化的间隔再等分四次,以便更精确地计算根的确切值,由此计算出的根x 便是余 弦域内的线谱对l s p 参数。 第3 章码激励线性预测 ( 2 ) l s p 参数到预测系数的变换 根据( 3 5 a ) 和( 3 5 b ) 式可由l s p 系数吼,扛l ,2 ,1 0 求得多项式曩( z ) 和 e ( z ) 的系数。e ( z ) 的系数彳( f ) 采用下面的递推算法: f o r 卢1 t o5 石( f ) = 2 9 :h 石( f 一1 ) + 2 石( f 一2 ) f o r 产f 一“o1 石( ,) = 石( ,) 一2 吼。石( ,一1 ) + z ( ,一2 ) e n d e n d 初始值石( o ) = 1 ,彳( 一1 ) = o 。用g :,代替g :。可以相应求得e ( z ) 的系数 五( f ) 。求得巧( z ) 和最( z ) 后,再分别乘上1 + z 一、l z ,可求得多项式p ( z ) 和 q ( z ) 的系数p ( f ) 和,( f ) ,即: p ( f ) = z ( f ) + z ( f 一1 ) f = 1 ,5 r ( f ) = 五( f ) 一以( f 一1 ) f _ l ,5 卢1 t o5 ( 3 1 0 a ) ( 3 1 0 b ) 最后求得l p 系数如下: q 浆裂符矗:二一舯 q 2 l o 5 p ( 1 l f ) 一o 5 r ( 1 1 一f ) ,f :6 ,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盐亭县2025年从高校毕业生“三支一扶”计划人员中考核招聘乡镇事业单位工作人员的备考考试题库附答案解析
- 2025年鲁南技师学院公开引进高层次、高技能人才(10名)备考考试题库附答案解析
- 工厂安全培训游戏课件
- 2025重庆巴南区第二人民医院招聘6人备考考试题库附答案解析
- 2025年9月重庆市綦江区万东镇公益性岗位招聘18人备考考试题库附答案解析
- 2025浙江温州医科大学附属第二医院耳鼻咽喉科技师的招聘1人启事备考考试题库附答案解析
- 2025河北保定市康复医院招聘9人备考考试题库附答案解析
- 2026中钨高新材料股份有限公司校园招聘备考考试题库附答案解析
- 2025云南省普洱市景东县职业高级中学公开招聘编外紧缺临聘教师(13人)备考考试题库附答案解析
- 目标行为预测模型-洞察及研究
- 湖南安全员c3考试试题及答案
- 产品品质及售后无忧服务承诺书3篇
- 2025年第11个全国近视防控宣传教育月活动课件
- 二年级防溺水教案
- 2025年养老产业市场营销策略调整分析报告
- 部编版二年级道德与法治上册第4课《欢欢喜喜庆国庆》精美课件
- 潍坊市2026届高三开学调研监测考试生物试题及答案
- 后厨设备安全操作培训课件
- 三维波动方程双变网格有限差分并行模拟方法:理论、实践与优化
- 好风起二部合唱简谱致远音乐
- 异姓兄妹结拜协议书范本
评论
0/150
提交评论