(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf_第1页
(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf_第2页
(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf_第3页
(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf_第4页
(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(通信与信息系统专业论文)自适应低速率语音编码关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅姜 语音编码一直是现代多媒体通信领域研究的热点,现今已经有多种经典的编 码方案。为了满足一些特殊领域,特别是无线通信、海底通信、军事通信、卫星 通信、保密通信、语音存储等的话音通信需求,语音编码将向低比特率方向快速 发展。如何在极低比特率下,保证良好的语音质量( m o s 得分不低于3 0 ) 是当 前迫切需要解决的问题。 本文主要对语音编码中矢量量化码字搜索算法、语音增强、语音激活检测技 术进行研究并进行了改进。利用改进的关键算法和多帧参数联合矢量量化原理设 计了一种高鲁棒性的改进型的谐波矢量激励线性预测声码器。实验结果表明,本 文设计的语音编码器在1 1 k b p s 比特率下,经非正式主观试听,其语音质量优于 f s l 0 1 64 8 k b p sc e l p ,接近于传统的2 0 k b p s 的h v x c 声码器。此外,由于改进 的声码器采用了快速搜索算法,克服了h v x c 算法延时大的缺点,可以有效地运 用于实时语音通信,为进一步的研究打下了基础。 关键词:语音编码谐波矢量激励码字搜索语音增强语音激活检测 a b s t r a c t s p e e c hc o d i n gi so n eo ft h eh o t s p o t si nm o d e mm u l t i m e d i ac o m m u n i c a t i o n s s o f a r , t h e r eh a v eb e e ns e v e r a lc l a s s i c a lc o d i n gm e t h o d s 。t om e e tt h er e q u i r e m e n to fs o m e p a r t i c u l a rf i e l d s ,e s p e c i a l l yw i r e l e s sc o m m u n i c a t i o n ,b e n t h i cc o m m u n i c a t i o n ,m i l i t a r y c o m m u n i c a t i o n ,s a t e l l i t ec o m m u n i c a t i o n ,s e c r e c yc o m m u n i c a t i o na n dv o i c es t o r a g e , t h ed e m a n df o rl o wb i tr a t e ss p e e c hc o d e rw i l li n c r e a s er a p i d l yi nt h ev e r yn e a rf u t u r e t h ep r e s s i n gp r o b l e mi st og u a r a n t e eaw e l ls p e e c hq u a l i t ya te x t r e m e l yl o wb i tr a t e t h i sp a p e rm a i n l yf o c u s e so nt h er e s e a r c ha n d i m p r o v e m e n to ft h ef a s tc o d ew o r d s e a r c ha l g o r i t h m ,s p e e c he n h a n c e m e n ta n dv o i c ea c t i v i t yd e t e c t o rk e y t e c h n o l o g i e s a h i 曲r o b u s ti m p r o v e dh a r m o n i cv e c t o re x c i t a t i o nl p cs p e e c hc o d e ri sp r o p o s e db y u s i n gt h ei m p r o v e dk e ya l g o r i t h ma n dm u l t i f r a m ej o i n tv e c t o rq u a n t i f i c a t i o np r i n c i p l e t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h ei n f o r m a ls u b j e c t i v e s p e e c hq u a l i t yo ft h e i m p r o v e ds p e e c hc o d e ra t1 1 k b p si sb e t t e rt h a nt h a to ff s l 0 1 64 8 k b p sc e l p , w h i c h p e r f o r m sa sw e l la st h e2 o k p b sh v x c i na d d i t i o n ,o w i n gt ot h ea d o p t i o no ft h ef a s t c o d ew o r ds e a r c ha l g o r i t h m ,t h ei m p r o v e ds p e e c hc o d e ro v e r c o m e st h es h o r t c o m i n go f t h el o n gt i m e - d e l a ya n dp e r f o r m se f f i c i e n t l yi nr e a lt i m es p e e c hc o m m u n i c a t i o n ,w h i c h m a k e saf o u n d a t i o nf o rt h ed e e p e rr e s e a r c h k e y w o r d :s p e e c hc o d i n g h a r m o n i cv e c t o re x c i t a t i o nc o d ew o r ds e a r c h s p e e c he n h a n c e m e n tv o i c ea c t i v i t yd e t e c t o r 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人己经发表或撰写过的研究成果:也不包含为获得西安电子科技大学 或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:4 垒宝宝日期丑豳( 二群 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的觌定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技太学。本人保证毕 业离校后,发表论文和使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复印手段保存论文目保密的论文 在解密后遵循此规定) 。 本人签名:绝玺笠 导师签名 辑 i 日期翅丛厶群 日期矬:! :! :! ! 第一章绪论 第一章绪论 1 1 自适应低速率语音编码简介 自适应语音编码技术与多速率语音编码是密切相关的。编码器是自适应的, 可以根据信道条件选择合适的编码速率,自适应的更新编码器参数,以提高语音 传输效率。目前语音通信不仅需要满足低比特率的要求还需要同时保证语音质量, 而低比特率和好的语音质量本身就是矛盾的,在实际的编码系统中都是对两者折 中考虑 3 】 4 】酬1 ”。为了充分的利用信道资源进行语音传输,单纯的使用传统的语音 信号编码方式已经很难满足要求,这促进了多速率语音编码技术的发展【4 q ,相应 地也促进了自适应技术的发展。 传统的语音编码自适应技术主要是指速率控制技术,包括源控制、信道控制 和网络控制。 源控制口7 琅口根据语音信号的短时声道特性,自适应地分配编码比特数,主要 是利用语音激活检测( v a d ) 技术,判断当前信号是否为语音,如果是语音就用 正常的较高的比特率编码传输,如果是非语音( 噪声) 就用较低的比特率传输( 可 以周期性地传输背景噪声信息,在解码器端产生舒适背景噪声) 。信道控制即根据 信道的质量来决定编码比特率,在恶劣信道环境下,采用较低的语音编码速率而 相应的提高信道编码速率( 增加控制信息) 来保证语音质量;相反,在信道衰减 小的环境下,可以提高语音编码速率。网络控制主要用来解决蜂窝移动通信中的 网络拥塞问题,也就是根据网络流量、拥塞状况,为每个用户分配可以接受的比 特率,这样就可以使网络在大部分时问内提供良好的语音质量。 o u a l c o m m 于1 9 9 3 年提出的可变速率c e l p ( 即q c e l p ) ,就是通过计算输 入能量,并与三个门限值作比较来选择编码比特率( q c e l p 包括四种速率:i ,2 , 4 ,科。1 9 9 9 年第三代伙伴计划( 3 g p p ) 2 1 公布的自适应多速率( a m r ) 语音 编解码中的源控速率( s c r ) 技术就是采用语音激活检测模式决定当前帧是声音 帧还是非声音帧,进而选择用标准的速率编码还是用舒适背景噪声代替语音帧传 输。 低速率语音编码主要应用在一些带宽受限、信道衰落大的领域。传输信道不 稳定,采用自适应技术可以进一步降低平均速率,改善语音质量,提高系统整体 效率。本文 要基于语音激活检测技术来进行自适应编码研究。 自适应低速率语音编码关键技术研究 1 2 语音编码关键技术概述 语音编码一直在用尽可能低的比特率获得尽可能好的合成语音质量的矛盾中 发展。最初数据压缩技术是制约语音编码发展的主要技术,然而语音编码发展到 现在,除了需要考虑数据压缩的高性能之外,还必须考虑算法延迟时间和计算复 杂度,并且要根据语音信号的声学特征和物理特征等多方面进行研究。 语音编码中涉及到的技术是多方面的,包括信息论、信号处理、网络通信、声 学、统计学、数学建模等各方面的知识与技术。其中矢量量化、快速码字搜索算 法、语音增强、语音激活检测、回波抵消等技术近年来发展迅速,也得到了广泛 的应用。限于篇幅和研究能力,本文主要分析三种关键技术:矢量量化码字搜索 算法,语音增强,语音激活检测。 1 1 矢量量化码字搜索算法 矢量量化的码书的维数有时比较大,如果采用低效的搜索算法,由于搜索耗时 多,计算量大,会影响整个系统的效率,码字搜索算法直接影响着系统运行的效 率,为此好多学者进行了深入研究,出现了一些比较优秀的快速搜索算法,比如 等均值最近邻域搜索算法【硼、等均值等范数最近邻域搜索算法【鲫、等均值等方差 最近邻域搜索算法【“、多控点三角不等式搜索算法【甜l 等,这些算法运用于语音编 码系统中在一定程度上改善了编码效率,但仍然存在着不足,需要进一步的改进。 2 1 语音增强 语音增强可以说是语音编码系统的一个前端处理模块,有时也将其称为语音的 去噪过程,它是解决噪声污染的一种有效的方法,其主要目的就是从带噪声的语 音信号中提取尽可能纯净的原始语音,即去掉语音中的噪声和干扰,改善语音质 量。对带噪语音进行去噪处理是一个具有重要意义的课题,是语音信号处理中一 个重要的发展方向。随着语音编码技术的发展,语音增强技术也得到了长足的进 步,出现了诸如陷波法1 1 2 】、滤波法 9 】、非线性处理法【9 】、减谱法【9 j 【1 2 1 、基于子波 分析技术语音增强方法【9 】1 4 7 1 6 s 】等。但目前对噪声中的语音信号处理的研究还不充 分,对背景噪声有效且优秀的处理方法还较少,如果能够在各种复杂的噪声背景 下进行语音处理,将会大大拓展语音信号处理的应用领域。 3 1 语音激活检测( v o i c ea c t i v i t yd e t e c t o r 简称v a d ) 根据有关统计,在电话通话中,其实人真正发声的时间只占通话总时间的4 0 , 而有6 0 的时间是无声的【引,在语音通信中真正需要传输的信息是人的声音信息, 而在这6 0 的无声时间内,实质上不需要传输任何信息,在解码器端产生舒适背 景噪声即可。语音激活检测技术需要采用多个参数组合来判决当前帧是有声帧还 是无声帧。现在,许多语音编码算法标准都制定了相应的v a d 算法,如g 7 2 9 p ”、 第一章绪论 a m r l 3 4 1 和c d m a 2 0 0 0 5 3 1 等。不过,在背景噪声条件下,各种背景的存在影响了 v a d 判决的准确性,各种标准的v a d 算法有时会出现误判,这些算法还有待进 一步优化。 1 - 3 课题背景 自从世界上产生第一部电话以来,语音编码也逐渐为人们所熟悉起来,随着 话音业务的需求,语音编码技术从产生到现在取得了长足的进步。 目前国际上音频压缩算法主要集中在i s o m p e g 音频编码标准,m p e g 4 的音 频部分对比特率在2 - 6 4 k b p s 范围内的自然音频进行了标准化,采用其推荐的a a c 编码方案可以产生高质量的压缩音频信号。m p e g - 4 中定义的参数语音编码器 h v x c 最低编码速率可低达1 2 k b p s ,并且可以得到好的语音质量 4 1 1 。目前一些主 流的编码器有c e l p ( 码本激励线性预测) 、m e l p ( 混合激励线性预测) 、m b e ( 多 带激励线性预测) ,以及使用这些方法组合的编码方案。相关资料表明,采用改进 型的m e l p 已经实现了0 6 k b p s 的编码速率;清华大学电子工程系,微波与数字通 信技术国家重点实验室的周高洪,唐昆,崔慧娟等人联合发表的一篇题为一种增 强的l p c 参数多级矢量量化技术表明:已经实现0 5 k b p s 可变速率声码器,还 有资料表明语音编码速率已经可以做到3 0 0 b p s h s ,极大地提高了语音编码效率, 节省了紧张的网络资源。语音编码技术一直向低比特率同时具有高的语音质量的 方向发展,根据信息论的观点,语音编码速率可以做到低达1 5 0 6 0 b p s ”,e h 此看 来,语音编码技术还有一段很长的路要走。 语音通信是现代人们交流的主要方式,一方面随着话音业务的增长,以及现 代网络数据业务的猛增,在现有的有限带宽的网络信道中进行语音信号传输要求 占用更少的带宽,以期把更多的网络资源留给数据等其他业务。另一方面,卫星 通信、海底通信以及军事通信等领域带宽非常有限并且网络不稳定、受外部环境 影响大,这就要求我们利用尽量少的信道进行语音信号传输,留出更多的网络资 源迸行纠错,误码恢复,以保证正常的语音通信。 由于所处环境的恶劣性,现在军事领域对语音通信提出了更严格的要求,编码 比特率小于等于1 5 0 b p s ,同时语音质量要求;m o s 得分3 。0 ,d r t 得分8 0 。目前还 没有现成的编码方案可以满足这种要求,因而论文基于m p e g 4 标准中的h v x c 参 数编码方案进行改进,结合矢量量化码字快速搜索算法、语音增强、语音激活检 测技术等可以降低编码速率、改善编码效率的实用编码技术,进行低比特率编码 方案的研究,具有现实意义。况且语音编码速率要做到6 0 b p s ,并且产生高质量的 语音,还有待编码模型的改进和新的理论方法的应用,研究总是一步步积累的, 只有不断的探索才能发现新的东西,论文研究极低码率的语音编码关键技术也具 4 自适应低速率语音编码关键技术研究 有一定的学术意义。 1 4 论文内容安排 论文通过研究当前语音编码中矢量量化码字快速搜索算法、语音增强、语音激 活检测三种关键技术,对这三种关键技术做了有效的改进,提出一种有效的高鲁 棒性低速率语音编码算法。 论文主要包括五部分。第一部分为绪论,简要介绍自适应低比特率语音编码以 及语音编码关键技术、课题背景等;第二部分主要介绍语音编码基本原理和相关 技术;第三和第四部分是本文的重点。第三部分重点分析了矢量量化码字搜索算 法、语音编码的语音增强技术和语音激活检测( v a d ) 技术,对算法做出了有效的 改进,并给出了仿真分析结果。第四部分重点介绍本文改进的谐波矢量激励编码 器;第五部分对论文工作做了总结,并对下一步工作做了初步规划。 第二章语音编码原理 5 2 1 1 语音信号的声学特征 第二章语音编码原理 2 1 语音编码原理 声音能够被人听到,是因为它具有一定的“响度”,有时我们会跣距离近的声 音比距离远的声音“响”。这些“响”程度的定性描述,对于某些声音己具有定量 的意义。要想定量地确定某一声音的响度,最直接最简单的方式,就是将这一声 音与另一标准声音作比较。选定1 0 0 0 h z 的纯音作为标准,调节1 0 0 0 h z 纯音的声 压级,使它与所研究的声音听起来具有相同的响度,这个声压级就被定义为该声 音的响度级。响度级的单位用方( p h o n ) 表示。从这里我们可以看出,声音的响 度级等于1 0 0 0 h z 纯音的声压级。图2 1 聊是响度级与声压级和频率的关系,即等响 曲线。 ( p h i l ) 獭寨柏 图2 1 等响曲线图 等晌曲线图反映了人耳对各频率的灵敏度。实验证明【3 j 晌度级每增加1 0 方 ( 等响的1 0 0 0 h z 纯音强度增加1 0 倍) ,响度就增加一倍。响度和1 0 0 0 h z 纯音强 度的0 3 方成正比。计算公式如下: l - 4 0 z21 0 等响曲线对于声音设备的设计具有特别的意义。从图2 1 可以看出,由于人耳的非 自适应低速率语音编码关键技术研究 线性特性,使得人耳对于响度级低的低频纯音变得不敏感。这其实是由于人耳的 滤波作用的结果。人耳对声音的感受在频率域以及声压级都有一定的范围。频率 范围正常人一般为2 0 2 0 k h z ,而声压范围则如图2 2 听阀曲线描述,在这条曲线 以下对应频率的信号人耳是听不到的。 声压级 线 频率f 图2 2 听阀曲线 图2 2 中a 声音的声压级在听阀曲线之上,可以被人耳所听到,而b 声音声 压级低于昕阀曲线,所以听不到。这样就可以根据人耳听觉域度只对可闻信号进 行编码。 听觉遮掩效应,人耳在寂静的环境中可以听到轻微的声音,而在嘈杂的环境中 这些声音被噪声掩盖而使的人耳听不到( 感受不到) ,这种由于一种声音的存在使 得另外一种声音需要提高声压级才能被人耳听到的效应成为遮掩效应。 这种遮掩效应叉分为频域遮掩和时域遮掩两种,又细分为向前遮掩和向后遮掩。 频域遮掩为在一段频率范围内,不同声压级的声音之间相互遮掩的效应。频域 遮掩效应如图2 3 。 声压级 频率f 图2 3 频域遮掩曲线 如图2 3 所示,本来a 、b 、c 三个声音都在听阀曲线之上,如果单独存在的 话,这三个声音都可以被听到,而现在a 声音的声压级高于其频带附近的b 声音 和c 声音,并且b 、c 又都在a 的遮掩范围之内,这样b 、c 都被a 遮掩掉了, 人耳听到的只是a 声音。从纯音对纯音的遮掩效应试验得出两点: a 中等强度的纯音遮掩主要出现在其频率附近 b 低频纯音对高频纯音的遮掩作用大于高频纯音对低频纯音的遮掩作用 第二章语音编码原理 另外噪声对纯音遮掩时,只有以纯音频率为中心的一定带宽内的噪声起作用, 这个频带宽称为临界频带宽度。在一般情况下,将2 0 h z 1 6 k h z 的带宽分为2 4 个 频带群,来表示噪声遮掩的临界频带。具体情况见表2 1 t 3 1 。 表2 1 临界频率 编号中心频率( h z )上下频限( h z )带宽( h z ) 1 5 02 0 1 0 08 0 21 5 01 0 0 2 0 01 0 0 32 5 02 0 0 3 0 0 1 0 0 43 5 03 0 0 - - 4 0 0 1 0 0 5 4 5 0 4 0 0 5 1 0 1 1 0 65 7 05 1 0 6 3 01 2 0 77 0 06 3 0 7 7 01 4 0 88 4 j 07 7 0 9 2 01 5 0 91 0 0 0 9 2 0 1 0 8 0 1 6 0 1 01 1 7 01 0 8 0 1 2 7 01 9 0 1 11 3 7 01 2 7 0 1 4 8 02 1 0 1 21 6 0 01 4 8 0 1 7 2 02 4 0 1 31 8 5 01 7 2 0 2 0 0 02 8 0 1 42 1 5 02 0 0 1 0 2 3 2 03 2 0 1 52 5 0 02 3 2 0 2 7 0 03 8 0 1 6 2 9 0 0 2 7 0 0 3 1 5 04 5 0 1 73 4 0 03 1 5 0 3 7 0 05 5 0 1 8舢 3 7 0 0 4 4 0 0 7 0 0 1 94 8 0 04 4 0 0 5 3 0 09 0 0 2 05 8 0 05 3 0 0 6 4 0 01 1 0 0 2 17 0 ( ) o6 4 0 0 7 7 0 01 3 0 0 2 28 5 0 0 7 7 0 0 9 5 0 0 1 8 0 0 2 31 0 5 0 09 5 0 0 1 2 0 02 5 0 0 2 41 3 5 0 01 2 0 0 0 1 5 5 0 03 5 0 0 时域遮掩是指在某一声压级较高的声音在其前后一定时间范围( 遮掩范围) 内 对其他较低声压级声音的遮掩效应。如图2 4 所示。 从图2 4 可以看出,时域遮掩的向后遮掩时间宽度为l o i n s 左右,向前遮掩时 间范围大概为l o o m s 。 根据遮掩效应只对幅度强的遮掩信号进行编码,可以有效低降低编码比特率。 自适应低速率语音编码关键技术研究 能量 2 1 2 语音信号的物理特征 ( 遮掩声) 图2 4 时域遮掩 语音信号具有时域和频域的双重特征,这也是各种编解码器在时域和频域处理 语音信号的依据。虽然听觉系统处理语音的详细过程至今还币是很清楚,但是用 已经知道的瞬时分析和频谱分析来处理语音得到了不错的效果。因此用时域或频 域的方法来分析语音是合理的。但语音信号具有非平稳性,这就决定了语音信号 的频域分析必须建立在短时间基础上,在短时( 1 0 , 一3 0 m s ) 内,可以近似认为语音 信号时平稳的,这决定了在处理语音信号时要分帧处理。 语音信号根据所发声音的不同,分为浊音和轻音。短时功率谱可以用来表示这 段短时语音特性。功率频谱的精细结构相当于时域信号的“长期”自相关,而功 率频谱包络相当于语音信号段的“短期”自相关【3 l 。在浊音段,功率频谱包络表现 出谐波特征,根据信号处理的基本理论,信号中的谐波结构对应于时域的周期性 信号,这样浊音段在频域近似表现为谐波结构,而在时域就表现为周期信号。在 轻音段,功率谱中不存在谐波结构,在时域表现出白噪声特征。图2 5 和图2 , 6 分 别为清音段和浊音段在0 - - 4 0 0 0 h z 频段的频谱图。 图2 5 浊音段信号频谱 第二章语音编码原理 2 1 3 声码器模型 语音传输的大体实现过程如下 图2 6 清音段信号频谱 图2 7 语音传输系统 声音是声波振动的一种表现形式,由于声波在传输过程中会逐渐衰减,因此声 音在空气中直接传输的距离是有限的。为了使语音传送到很远的地方,现代人建 立了语音传输系统。从图2 7 看出,语音经编码器编码后通过网络传输到目的地, 然后进行解码还原为声音。 语音技术发展到现在,语音编码器类型也呈现多样化。在语音传输系统中,编 码器类型的选择,决定了恢复后的语音质量以及编码比特率。 语音编码器大体可以分为三种类型:波形编码器,参数编码器和混合编码器。 波形编码比较简单,编码前根据采样定理对模拟语音信号进行量化,然后进行 幅度量化,再进行二进制编码。解码器作数模变换后再由低通滤波器恢复出原始 的模拟语音波形,这就是最简单的脉冲编码调制( p c m ) ,也称为线性p c m 。可以通 过非线性量化,前后样值的差分、自适应预测等方法实现数据压缩。波形编码的 目标是让解码器恢复出的模拟信号在波形上尽量与编码前原始波形相一致,也即 失真要最小。波形编码的方法简单,数码率较高,在6 4 k b p s 至3 2 k b p s 之间音质 优良,当数码率低于3 2 k b p s 的时候音质咀显降低,1 6 k b p s 时音质非常差。波形编 1 0 自适应低速率语音编码关键技术研究 码器工作在高比特率。例如:i t u g 7 1 l 规范( p e m ) 用的比特率为6 4 k b p s 。 参数编码( 信源编码) ,又称为声码器,是根据人的发声机理,在编码端对语 音信号进行分析,分解成有声音和无声音两部分。声码器每隔一定时间分析一次 语音,传送一次分析得到的有无声和滤波参数。在解码端根据接收的参数再合成 声音。声码器编码后的码率可以做得很低,如1 2 k b p s 、2 4 k b p s ,但是也有其缺 点。首先是合成语音质量较差,往往清晰度可以而自然度没有,难于辨认说话人 是谁,其次是复杂度比较高。 混合编码是将波形编码和声码器昀原理结合起来,数码率约在4 k b p s 一1 6 k b p s 之间,音质比较好,最近有个别算法所取得的音质可与波形编码相当,复杂程度 介于波形编码器和声码器之间。在现阶段,大多数基于v o i p 的编码器的工作范围 在5 2 k p b s 一8 k b p s 。研究表明,标准的编码器在比特率为4 k b p s 时能提供可接受的 m o s 得分,一些分用系统在4 8 k b p s 的m o s 上的得分为3 8 。 通过前面的分析知道对于语音编码器,其输入信号的特点是知道的,因而先进 的编码器总是希望在比特率和语音质量两方面都得到满足,可这往往是矛盾的, 重构语音质量总是随着数码率的降低而下降。参数编码器可以做到很低的数码率, 但其合成语音较差,包括自然度,可懂度方面都不如波形编码【3 6 】,但在军事通信、 海底通信、卫星通信等特殊的场合,参数编码器的低数码率占了优势。在下面的 章节中就介绍几种主要的声码器。 2 2 1c e l p 声码器 2 2 低速率语音编码技术 码激励线性预测( c e l p ) 编码技术是m a n f r c dr s c h r o c d e r 和b i s h n us a t a l 在1 9 8 5 年的i e e ei c a s s p 年会上首次提出的,1 9 8 8 年,美国政府制定了 f e d s t d l 0 1 6 标准,即美国国防部与a t & t 贝尔实验室共同研制的4 8 k b p s c e l p 声码器【。c e l p 用码本作为激励源,以高质量的语音和优良的抗噪声性能在4 8 1 6 k b p s 速率上得到了广泛的应用。g 7 2 8 ,g 7 2 9 ,g 7 2 9 a 标准都是采用了c e l l 的改进方案。 c e l p 采用了分析合成方法,帧长为2 0 - - 3 0 m s ,其中还利用了感觉加权、矢量 量化、线性预测等编码技术。c e l p 编码框图如图2 8 。 第二章语音编码原理 1 1 图2 8c e l p 编码框图 1 ) 原始语音按帧做l p c 分析,得出一组l p c 系数,用来构造合成滤波器, c e l p 声码器建立两个码本,一个自适应码本,一个随机码本。自适应码本中 的码矢量用来逼近语音的长时基音结构,随机码本用来逼近语音的短时、长时 预测后的残差信号。从两个码本中搜索出最佳码矢量,分别乘以各自的增益然 后相加,就得到了c e l p 的激励源信号。激励信号经过p 阶合成滤波器后得到 合成语音s o ) ,合成语音与原始语音s ( 丑) 的差经过感觉加权滤波器后得到感觉 加权误差e ( n ) ,根据最小均方误差准则( m s p e ) 搜索最佳码矢量及其增益, 使m s p e 最小的码矢量即为最佳码矢量。一般码矢量的长短与子帧的长短有 关,码本的大小与占用存储空间大小以及搜索时间有关。固定码书是预先编制 好的,自适应码书最初是空白,在分析合成过程中不断更新,用感觉加权误差 减去固定码矢量后,更新自适应码书。 2 ) 书搜索算法是c e l p 中的关键算法。下面进行简单的介绍。 码书搜索是按照最小均方误差准则进行的【3 2 】。假设c e l p 中子帧长度为l , s 为l 维原始语音信号,s 为l 维合成语音信号,e 是l 维加权误差信号。v 表示正在搜索的激励矢量,i 表示码书中码矢量的标号,码书中共有n 个码矢 量,记为) ( ( 1 ) ( i = 1 ,2 ,n ) 。g l 表示第i 个码矢量的增益,则有下面的表达 式: v ;白x ( 2 - 1 ) h 和w 是l l 维矩阵,它们的第i 行元素分别由l p 滤波器和知觉加权 滤波器对单位脉冲冲激响应6 一f ) 的截断组成。合成语音可以表示为: 自适应低速率语音编码关键技术研究 s “= s o + ( u + 矿牡) 日, i s i s n 式( 2 2 ) 中u 为自适应码矢量,第一次搜索时为零矢量, 幅度调整的自适应激励矢量。加权误差信号e ( j ) : a e “一o 一5 ) 缈 假若用p ( o ) 表示搜索的目标矢量,则t ( o ) : e o ;( s s o 矽一u h w 将式( 2 - 们入式( 2 - 3 ) 得: 廿( dib ( 0 、一y ( ) 日矽 若用】,( ) 表示滤波后的码矢量,则: y o ) ;x ( 1 ) h w 则第f 个码矢量的加权误差e ( o 为: ( 2 2 ) 第二次搜索时是经过 ( 2 3 ) ( 2 5 ) ( 2 6 ) g “= e 吣一g l y ( 2 7 ) 令e i 表示相应于第i 个码矢量的误差的平方和: e t - i e ( 0 i i 一口o 口“7 e j = 7 2 9 j e 门y “7 + 9 2 t y 仰y 7 7( 2 - 8 ) 式( 2 8 ) 中t 为转置。从其中也可以知道毛是增益鼠和标号f 的函数。对于给定 的i 值,最佳增益可用下式计算: 当;一扩 r + 2 9 。y ( o y :o ( 2 - 9 ) o g 驴舞罢( 2 - 1 0 ) 戤。弘i 两 用g ,表示量化的g ,则 g f2 q 【g ,】 只要搜索使e 最小的序号f 即可,式( 2 8 ) 中第一项与序号无关,所以只要使后 两项之和值最大即可: 最佳序号r 2 叫未2 e ( o ) y ( 1 ) r _ ;ly o ) y ( o r 】 p 第二章语音编码原理 假如g ;的量化误差可以忽略不计,将式( 2 1 0 ) q b 的g ,代替g 。代入式( 2 1 1 ) 可得: 一弘m d 够 其实从码书中搜索最佳激励矢量v ( o 的过程,就是搜索最佳码矢量序号i , 然后计算最佳增益毋的过程。 下面简单介绍一下f e d s t d1 0 1 6 编码器。f e d s t d l 0 1 6 声码器框图如图 2 9 t 4 1 。 图2 9 f e d s t d1 0 1 6 声码器框图 f e d s t d1 0 1 6 采用8 k h z 采用,帧长为2 4 0 个样点( 3 0 m s ) ,一帧分为4 个子帧,每帧发送1 4 4 b i t s 数据,编码速率为4 8 k b p s 。其中发送的参数包括: 1 0 个l s f 参数,自适应码本序号和增益,随机码本序号跟增益。采用了分析 合成法。发端主要功能包括:短时线性预测、长时自适应码本搜索、随机码本 搜索。为了增强音质还采用了后置滤波。短时l p 分析采用开环的方法,每帧 分析一次,产生1 0 个l s f 参数。l p 分析采用的是自相关法,取3 0 m s 的无叠 接哈明窗。在一个哈明窗内包括本帧的后两个子帧和下一帧的前两个子帧,不 进行预加重处理,但对l p 滤波器有1 5 h z 的频带扩展,这对于改善音质和l s f 量化都是有益的。知觉加权滤波器对1 0 个l s f 系数进行独立的标量量化。l s f 参数每帧传送一次。表2 2 1 4 1 列出了f e d - s t d1 0 1 6 编码器特征。 1 4 自适应低速率语音编码关键技术研究 c e l p 声码器在4 k b p s 及以上速率可以提供比较好的语音质量矧,但如果 用于极低码率编码( ( 2 4 k b p s ) ,则由于c e l p 采用了过分简化的二元激励模型, 使的其没有足够的比特用来表示码书信息并且不能精确描述浊音段语音谱的 谐波结构,其语音质量极度下降1 4 】。 表2 2f e d - s t d1 0 1 6 声码器特征 线性预测器自适应码本随机码本 更新( m s ) 3 0 3 0 4 = 7 53 0 4 = 7 5 1 增益1 延时1 增益1 延时 参数1 0 l s f ( 独立) 2 5 6 个码字5 1 2 个码字 开环闭环 1 0 阶闭环6 0 维 自相关法 6 0 维m s p e v q 分析3 0 m s ( 哈明窗)m s p e v q加权0 8 无预加重加权0 8相邻码字位移2 1 5 h z 带宽扩展范围2 0 1 4 77 7 稀疏 四次插值 三值样点 3 4 b i t s 帧( 3 ,4 ,4 ,4 ,4 , 序号8 + 6 + 8 + 6序号9 4 3 ,3 ,3 ,3 ,3 ) 增益5 4 增益5 4 速率( b p s ) 1 1 3 3 3 31 6 0 01 8 6 6 6 7 剩余2 0 0 b p s 同步l b i t 帧前向纠错4 b i t s 帧未来扩展l b i t 帧 2 2 2m b e 声码器 多带激励声码器突破了二元激励的局限,将语音谱按照基音谐波频率分成若干 子带,对各个子带分别独立地进行清浊音判决,然后根据各子带的清浊音判决结 果,采用不同的激励信号合成语音,最后将各子带信号相加形成全带合成语音, 采用了分析合成法( a b s ) ,提高了语音参数提取的准确性,在2 4 。4 8 k b p s 速率上 可以合成清晰度和自然度较好的语音。是目前低速率语音编码中较为理想的语音 编码方案。这种编码器模型首先在1 9 8 8 年由美国m 林肯实验室提出,其改进方 案( i m b e ,编码速率为6 4 k b p s ) ,被国际海事卫星组织在1 9 9 1 年8 月定为 “i n m a r s a t - mv o i c ec o d e c ,v e r s i o n3 ”标准。简化的m b e 编解码器框图如图 2 1 0 ( a ) 1 3 和2 1 0 ( b ) 【3 】o 由图2 1 0 可以看出,m b e 声码器先对输入语音加窗( 哈明窗) 分帧,窗长一 般为2 0 - - 4 0 m s ,然后进行傅立叶变换,估计基音频率只,根据基音频率的谐波划 分子频带,对各个子频带分别进行v ,u 判决,估计谱包络参数( 幅度4 和相位九) 。 第二章语音编码原理 如果在一帧内子频带分的太多( 一个谐波分为一个子频带) ,比如一个基音周期为 一个频带,假如r = 5 0 ,则在4 k h z 带宽的一帧语音信号内,需要进行8 0 次的,u 判决,并且如果每个子频带的v 加判决标志只用l b i t 来表示,也需要8 0 b i t 传送 v 厂u 信息,这种做法不实际,所以一般的做法是将2 个谐波划为一个子频带进 行v m 判决。解码器端在收到编码参数后,再按照各子带的v u 信息合成清浊音, 最后将各子频带合成的清浊音相加得到合成语音。 由 ( 呔) ) 慨) 图2 1 0 ( a ) m b e 编码框图 图2 1 0 ( b ) m b e 解码框图 无论是清音、浊音、还是混合语音( 过渡音) 段,多带激励编码( m b e ) 编码 过程都需要提取三个参数,即基音频率、谱包络参数、每个子频带的v 加判决信 息。 假设输入的语音信号为s ( ) ,窗函数为o k n ) ,则加窗后的信号为: j 。o ) = s ( n ) 珊( n )( 2 - 1 2 ) 用s ,( m ) 表示s 。伽) 的短时谱,日, ) 表示系统函数,层,扣) 表示激励信号谱, 则有; s , ) t 日, ) 占, )( 2 - 1 3 ) 重建后的语音信号表示为: 自适应低速率语音编码关键技术研究 s 。( ) = 日。( 甜) 四。( 珊) ( 2 - 1 4 ) 式( 2 1 4 ) c ph 。 ) 表示合成滤波器的系统函数,e 。 ) 表示激励信号的频谱,这 些都是从语音信号中提取的。 在l p c 声码器中,h 。( ) 用全极点函数逼近,它相应于s ,和) 的谱包络。对 于激励信号五。 ) ,在二元激励声码器中,清音段为加窗白噪声序列的傅立叶变 换,浊音段为加窗周期脉冲序列的傅立叶变换,用符号巴 ) 表示,脉冲的重复周 期为p 0 ,相应的基音频率为。雩幺。如果窗函数的主瓣足够宽,旁瓣足够小, 则只 ) 在基音各次谐波位置上的谱包络形状与窗函数主瓣形状相同。二元激励信 号只需要用v 判决标志和基音频率。来表示。 多带激励声码器与传统声码器的不同之处就在于其激励信号的表示方法不同。 它不是把整段语音信号简单的看成周期信号或非周期信号,而是按照基音各谐波 频率,将语音谱分成若干个频带,分别进行v 判决,总的激励信号由备子频带 的激励信号相加而成。对于清音语音段,用白噪声作为激励信号;对于浊音段, 则用只 ) 作为激励信号谱。系统函数日。 ) 的作用是确定各子频带分量的相对 幅度和相位,起到将e 。( o j ) 映射成为s 。o ) 的作用。这种激励模型比较符合实际 语音信号的特性,使得合成语音和原语音在频谱精细结构上可以拟合的更好,如 果语音谱的相位信息也传送则在解码器段可以很成高质量的语音。下面对参数信 息的提取进行简要的说明。 1 ) 基音估计以及各次谐波幅度的提取 假设基音周期为p ,则基音频率一冬。依次假设基音频率c o 。为各种可能出 , 现的值。对于每一个,。,将m = 一瓢一“分为若干频带,每个频带的上限和下限依 次为:口。t 一1 2 ) o ) o ,6 爪= + l 2 ) w o ,m = o ,1 ,2 ,m 。则对于浊 音段,包括幅度和相位的最佳谱包络为: 小罴竽 陪均 式中g 1 为一个频率加权函数。 对于清音语音段,激励信号采用理想的白噪声,白噪声谱在所有频率上为常数, 白噪声的相位信息没必要计算,则最佳谱幅度为: 第二章语音编码原理 卧絮警 ( 2 - 1 6 ) 在搜索基音周期时,可以先作粗搜索,先将基音周期假设为整数个样点值,一 般范围定为2 0 1 2 0 左右。在找到初始基音周期后,再在这个初始基音周期对非整 数基音周期进行细搜索,一般精确到1 4 1 8 就足够满足要求了。 2 ) 频带内的v 舢判决 当确定了基音周期最,并且计算出各次谐波谱包络以后,就可以根据各次谐 波内的归一化误差能量进行v ,u 判决,若s 。表示第m 个子频带内拟合误差,则 归一化误差能量: 和i 而i f m o f 2 1 7 ) 若岛。小于某一阊值,则判决为浊音,反之,判决为清音。 与传统的声码器相比,m b e 声码器是一种改善了激励模式的语音编码方案。 它的多带v 脚判决模式,使合成语音有利于更好地拟合谐波谱的精细结构,提高 了合成语音的自然度,并且具有一定的噪声容忍度,在2 4 k b p s 速率上可以获得比 较好的语音质量,目前这一编码方案芷向更低比特率发展【矧。 2 3 谐波矢量激励声码器( h v x c ) 2 3 1 谐波矢量激励声码器( h v x c ) 概述 谐波矢量激励声码器( h v x c ) f 4 2 l 是m p e g 一4 标准语音编码的一部分,突破了二 元激励模型的限制,吸收了多带激励声码器( m b e ) 和码激励线性预测声码器( c e l p ) 的优点,采用谐波来描述浊音语音信号的谱精细结构,在极低比特率下,也可以 获得较好的合成语音质量。h v x c 将语音信号分为三种类型:清音、浊音、混合音。 当输入的语音帧为清音时,采用类似c e l p 的闭环搜索算法;当输入的浊音帧确定 为浊音时,采用频谱包络矢量量化方法【3 3 1 。在解码器端,当确定当前帧为清音帧 时用随机自噪声作为激励源,浊音用带有噪声的周期性冲激脉冲作为激励源。这 样可以使清音到浊音和浊音到清音平滑过渡。测试表明2 k b p s 编码速率的h v x c 语 音质量要高于f s l 0 1 6 语音编码器的合成语音质量【1 7 】1 1 9 】【4 2 1 。 自适应低速率语音编码关键技术研究 2 3 2 1 编_ 1 口m 十1 e k h v x c 的编码器框图如图2 1 1 1 9 1 。 图2 1 1 h v x c 编码器 h v x c 编码器的输入语音信号8 k t l z 采用的语音信号,帧长为2 0 m s ,窗长为3 2 m s 。 分帧后的语音信号先进行l p c 分析,得到一组l p c 系数,由于l p c 系数量化性不 理想且对误差敏感,所以,l p c 系数没有直接被量化,而是将l p c 转换为l s p 系数 后进行带帧内预测的多级矢量量化( 这里采用两级矢量量化) 。用开环基音搜索对 基音频率进行粗估,然后利用经过l p c 逆滤波后的语音信号的残差谱对基音周期 进行精确估计,同时得到频谱包络参数。如果本帧语音信号确定为清音帧,则利 用进行随机码本搜索,获得码本标号和增益【4 2 】。 2 3 2 2 基音提取 h v x c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论