(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf_第1页
(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf_第2页
(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf_第3页
(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf_第4页
(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(机械工程专业论文)关于melp的12kbs语音压缩编码的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 为了适应无线通信等低速语音编码的场合,本论文吸收了2 4 k b s 混合激励线性预 测m e l p 算法优点,提出了一种改善激励源的1 2 k b s 混合激励线性预测算法,该算法 在解码等方面较传统的2 4 k b s l p c 算法有了较大的改进。 论文分析了m e l p ( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ) 算法所采用的新的语音分 类模式,介绍了该算法所采用的5 项关键技术,即分带混合激励、使用非周期脉冲、残 差谐波谱的处理、自适应谱增强技术、脉冲离散滤波。本研究是在2 4 k b s m e l p 算法的 基础上,进行语音二次压缩。在二次压缩时,采用保留奇数段参数信息,去除偶数段参 数信息的方法,给出了采用m e l p 压缩编码算法后的输出比特流在各个参数上的比特 分配表 进行语音解压时,根据前后奇数段的参数信息,进行清、浊音判别,对清、浊音分 别进行线性内插恢复中间帧。并通过计算机仿真,对m e l p 合成语音与原始语音的质 量做了比较;仿真实验结果表明采用二次压缩可以达到和采用2 4 k b s 的m e l p 几乎相 同的语音效果。 关键词:m e l p ,语音压缩编码,混合激励,声码器 a b s t r a c t a b s t r a c t i no r d e rt om e e tt h en e e d so fw i r e l e s sc o m m u n i c a t i o n s an e wi 2 k b ss p e e c hc o d i n g a l g o r i t h mb a s e do nm e l p ( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ) i sp r o p o s e di nt h i sw o r k c o m p a r e dw i t ht h et r a d i t i o n a l2 4 k b sl p ca l g o r i t h m ,t h i sn e wa l g o r i t h mi m p r o v e st h e d e c o d i n ge f f i c i e n c y t h i st h e s i sa n a l y s e st h en e ws p e e c hc l a s s i f y i n gm o d e l a d o p t e db ye x c i t a t i o nl i n e a r p r e d i c t i o na l g o r i t h m ,i n c l u d i n g5k e yt e c h n i q u e s ,n a m e l ya sm i x e d e x c i t a t i o n ,u n p e r i o d i c p u l s e ,s u r v i v a lh a r m o n i c ,a d a p t i v es p e c t r a lf i l t e r i n ga n dp u l s ed i s p e r s i o n t h i sd e s i g ni ss e t u po ns e c o n ds p e e c hc o d i n gd e s i g nb a s e do n2 4 k b sm e l ei nw h i c h w ea d o p tt h em e t h o d t h a tk e e p st h ep a r a m e t e r so fo d dn u m b e r sa n dw i p e so f f t h ep a r a m e t e r so fe v e nn u m b e r s t h e a s s ;g n m c n to ft h eb i t su s eo ft h ep a r a m e t e r sa r ec a l c u l a t e da n dl i s t e d t h ep r o p o s e ds p e e c hd e c o d i n gi sb a s e do nt h ep a r a m e t e ri n f o r m a t i o no fb o t ht h ef o r m e r a n dl a t t e rf r a m e st oc o m p o s ep a r a m e t e ri n f o r m a t i o no f t h em i d d l ef l a m e ,w h i c hd i s t i n g u i s h s u r do rs o n a n t ,a n dr e s h a p et h eo r i g i n a lm i d d l es p e e c hf r a m eb yl i n e a r i t yd i s p o s a l t h e c o m p a r i s o nb e t w e e nm e l ps y n t h e s i ss p e e c ha n do r i g i n a ls p e e c hi sm a d ea n ds i m u l a t e di na p e r s o n a lc o m p u t e r t h es i m u l a t i o nr e s u l t ss h o wt h a ts i m i l a rs p e e c he f f e c tc a nb eo b t a i n e db y t h ea l g r i s i l l sb a s e do nt h es e c o n ds p e e c hc o d i n ga n d2 4 k b sm e l e k e y w o r d s :m e l p 。s p e e c hc o m p r e s se n c o din g mix e de x cit a tio n v o c o d e r i l 关于硕士学位论文使用授权的说明 论文题目:差王迪坠的! :2 坠么曼适童压缩缠码的婴究 本学位论文作者完全了解大连工业大学有关保留、使用学位论文 的规定,大连工业大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 是否保密( 雷) ,保密期至年 月日为止。 学生签名厂拯导师签名:。墨主垄坠 2 0 0 8 年3 月l o 日 第一章绪论 1 1 研究背景 第一章绪论 语音信号中有很大的信息冗余,压缩的每一个比特都意味着节省开支,低速率数字语 音传输具有重大的实用价值,高质量的低速率语音编码技术在移动通信、卫星通信、多 媒体技术以及i p 电话通信中得到普遍应用。极低速率语音传输技术已经越来越受到关 注,很多领域对语音的压缩传输率要求很高,例如:g p r s 无线通讯领域,低速网络多 媒体通讯中也对语音的压缩率要求很高,只有这样才能达到节省网络资源开销的目的, 以使得在低速率的网络上也能传输多媒体音频数据的功能。 m e l p 编码方法它结合混合激励、多带激励以及原型波形内插等编码方法的优点, 采用一种新的更符合人的发音机制的语音生成模型来合成语音。并利用自适应频谱增强 技术,提高合成语音与分析语音的匹配度,实现了低码率的语音编码。本设计所研究的 语音编码算法也是目前在世界上压缩速率极低的一种语音编码算法,可以为低速率网络 传输音频数据节省很多的资源歼销,很有研究的意义。 1 2 技术发展概况 随着信息社会和通信技术的高速发展,频率资源显得愈加宝贵。因此,压缩语音信 号的传输带宽或降低电话信道的传输码率,一直是人们追求的目标。语音编码器在实现 这一目标的过程中担当着重要角色。极低速率的语音信号,在i p 分组传输中质量更加容 易得到保证,尽管通信网络容量在不断增加,但语音压缩编码一直在应用中受到关注的 原因语音压缩技术主要应用于: 1 频率带宽受限系统的语音信号的数字传输,主要有数字通信系统( d i g i t a l c o m m u n i c a t i o n ss y s t e m ) 、移动无线电( m o b i l er a d i o ) 、蜂窝电话( c e l l u l a rt e l e p h o n e ) 和保密话音系统( s e c u r ev o i c es y s t e m ) 。要求能够实时编解码,要有高的抗信道误码能 力,能传输带内数掘、单频和多频等非语音信号,并具有多次音频转接能力。信道条件、 时延和数据速率是在这类应用中重要的考虑对象。 第一章绪论 2 语音信号的数字存储应用领域,存储器成本高昂,客观上要求尽量减少语音的信 息冗余该类应用丰要有呼叫服务( p a g i n gs e r v i c e ) 、数字回答机( d i g i t a la n s w e r i n g m a c h i n e ) 和声音响应系统( v o i c er e s p o n s es y s t e m ) ,如数字录音电话、语音信箱、电 子留言簿、发声字典、多媒体查询系统以及各类电予发声玩具等。这类应用又称为数字 语音录放系统,它与模拟语音录放系统相比具有灵活性高、可控性强和寿命长等优点。 这类应用对编码器实时性要求不高,即不一定要求实时编码,但希望有较高的压缩效率, 以降低所需存储器容量。对解码器而言,则要求算法尽量简单,成本要低,并能够实时 解码。在这类应用中,人们最关心的是语音质量和存储需求【l j 。 目前,语音压缩编码技术主要有两个努力方向:一个是中低速率的语音编码的实用 化,及如何在使用过程中进一步减低编码速率和提高其抗干扰、抗噪声能力;另一个是 如何进一步的降低其编码速率,目前已能在5 k b s 6 k b s 的速率上获得高质量的重建语 音,下一个目标则是要在4 k b s 的速率上获得短延时、高质量的重建语音。特别是对中 长延时编码,人们j 下在研究其更低速率( 如4 0 0 b s 1 2 0 0 b s ) 的编码算法。c e l p 的编码 速率较低,但复杂度较高,可以在4 8 k b s 左右的码速率上获得较高质量的语音,是当 今中低速率语音编码技术的主流技术之一,在这个过程中当编码速率降至2 4 k b s 速率 以下时;c e l p 算法即使应用更高效的量化技术也无法达到预期的指标,需要其它一些 更符合低速率编码要求的算法。 目前比较好的算法还有正弦变换编码( s t c ) 、混合激励线性预测编码( m e l p ) 、 时频域插值编码( t f i ) 、基音同步激励线性预测编码( p s e l p ) 等,同时还要求引入新 的分析技术,如非线性预测、多精度时频分析技术( 包括子波变换技术) 、高阶统计分 析技术等,这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似入耳的特性作语音 的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率 语音编码的研究上取得突破。 就目前具有通信质量的中、低码率语音编码器而言,16 k b s 和8 k b s 的技术已经标 准化和产品化,4 - - 一8 k b s 是标准化制定和使用产品竞争的热点,主流仍为c e l p 类型的 技术,而重要的研究焦点,将逐步转向更低的码率,譬如2 4 k b s 或1 2 k b s 编码器。近 年来,国内外在丌展4 k b s 及其一下速率的语音编码研究方面,主要代表算法有四个: 1 多带激励编码( m b e _ 叫u l t i b a n de x c i t a t i o nc o d i n g ) 2 正弦变换编码( s t c s i n u s o i d a lt r a n s f o n nc o d i n g ) 3 混合激励线性预测( m e l p m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ) 编码 2 第一章绪论 4 波形内插( w i w 打e f o r mi n t e r p o l a t i o n ) 编码 其中,m b e 和s t c 为基于币弦合成分析模型( s a s m 一一s i n u s o i d a l a n a l y s i s s y n t h e s i sm o d e l s ) 的语音编码算法,m e l p 为基于二元激励模型的线性预测编 码算法,w i 为基于s a s m 和线性预测模型的混合型编码算法。 传统的基音激励( p i t c h e x c i t e d ) l p c 声码器用周期脉冲串或白噪声作为全极点合 成滤波器的激励,这些声码器在非常低的比特率产生了可懂语音,但它们的重建语音有 时听起来是机械的或蜂鸣的,倾向于讨厌的薰击声和音调噪声。这些问题起因于简单的 脉冲串没有能力产生各种浊音语音。 亚特兰大佐治亚州理工学院的a v m c c r e e 博士提出的m e l p 编码器使用了混合激 励模型,能产生更自然的语音,这是因为它能模仿较丰富的可能的语音特征集合。m e l p 编码器在严重的背景噪声环境里也是坚韧的,诸如那些商用和军用系统中经常碰到的背 景噪声。m e l p 计算负载很小,用现有的d s p ( 如t m s 3 2 0 c 3 0 ) 即可实现,它有相对 低的功率消耗,考虑了系统的可移植性。 m e l p 编码器以传统的l p c 参数模型为基础,但也引入了四个附加特征:混合激励 ( m i x e d e x c i t a t i o n ) 、非周期脉冲( a p e r i o d i cp u l s e ) 、脉冲散布( p u l s ed i s p e r s i o n ) 和自 适应谱滤波( a d a p t i v es p e c t r a lf i l t e r i n g ) 。 混合激励用多带混合模型实现,这个模型用基于固定滤波器组的一个新颖自适应滤 波结构,模拟频率依赖声音强度,这个多带激励的主要作用是减少通常与l p c 声码器 相联系的翁翁声,尤其在宽频声学噪声罩。 当语音为浊音时,m e l p 声码器能用周期的或非周期的脉冲合成语音,非周期脉冲 经常用于语音信号的浊音和清音问的过渡区域,非周期脉冲的主要作用是排除浊音度过 强引起的偶然的音调噪声。 脉冲散布用基于谱平整的三角脉冲的固定脉冲散布滤波器实现,这个滤波器在一个 周期内起到了展开激励能量的作用,这依次减少了合成语音的粗糙质量。 自适应谱滤波器以l p c 声道滤波器的极点为基础,用于增强合成语音的共振峰结 构,这个滤波器改善了合成波形和自然带通波形间的匹配,产生了更自然的输出语音质 量。 在j 下式的听力测试中,2 4 k b s m e l p 编码器得到的诊断可接受分( d i a g n o s t i c a c c e p t a b i l i t ys c o r e ) 比运作在同样速率上的d o d 标准( l p c ) 高5 分。 美国国防部数字声音处理协会( d d v p c 一- - d e p e r t m e n to fd e f e n s ed i g i t l a lv o i c e p r o c e s s i n gc o n s o r t i u m ) 已经选择了m e l p 声码器作为2 4 k b s 语音编码的联邦标准。这 第一章绪论 一公告是1 9 9 6 年5 月8 同在亚特兰大佐治亚洲举行的国际声学、语音和信号处理会议 ( 1 c a s s p ) 上做出的。 应低比特率通信设备的军用和民用要求,d d v p c 于1 9 9 3 年5 月开始选择新的 2 4 k b s 话音编码算法。m e l p 声码器是在多年广泛的测试程序之后被选定的。选择测试 集甲在四个方面,即可懂度、话音质量、讲话者辨别和通信性。选择准则也包括硬件参 数,如处理功率、存储使用( m e m o r yu s a g e ) 和迟延( d e l a y ) 。在7 个候选方案中,m e l p 是最好的,甚至可以与两倍码率的f s l 0 1 6 4 8 k b s 声码器比试。 目前,使用新的2 4 k b s 标准算法的三个系统是:s c a m p ( s i n g l ec h a n n e la n t i j 锄 m a n p o r t a b l e ) 终端、c o n d o r 系统和s t e ( s e c u r et e r m i n a le q u i p m e n t ) 。m e l p 声码器 还可用于民用,如无线通信。i n t e r n e t 电话和语音邮寄系统,但其语音质量有待进一步 改善。 通过很长一段时间的调研,发现目前国内外对语音编码压缩算法中能达到极低速率 ( i 2 k b s ) 的算法只有很少量的理论研究,并且经过我们的理论推算,是有可能在保证 听觉信息质量的前提下,将2 4 k b s 话音压缩到1 2 k b s 1 2 k b s 的速率指标是具有实际 的应用价值和理论研究价值的因此,本研究将实现1 2 k b s 的语音速率指标作为课题 的技术目标 1 3 研究重点 1 对m e l p 的2 4 k b s 语音算法进行分析和研究,提取出m e l p 压缩的5 4 位语音参 数,对各个参数数据进行整合和波形分析,找到参数数据的相关性,对5 4 位参数进行 二次压缩,只保留奇数段参数信息。 2 利用线性插值算法对奇数段参数信息进行清浊音判别,并对不同情况进行线性内 插恢复,将参数文件进行m e l p 解码合成,并将恢复后的语音波形与原语音波形进行比 较,验证算法的可靠性。 4 第_ 二章m e l p 语音压缩编码旗础简介 第二章关于m e l p 语音压缩的基础理论 本章将简述语音、语音信号、语音编码技术、m e l p 语音编码策略、m e l p 算法中 的关键技术与基础理论。 2 1 语音 2 1 1 语音的定义 语音信息占人体接收信息量的2 5 ,占人体交流信息量的7o 语音是人类发 , 音器官发出的具有区别意义功能的声音,是最直接地记录思维活动的符号体系,是语言 交际工具的声音形式。语音和意义的联系是人们在长期的语言实践中约定的,这种音义 的结合关系体现了语音有重要的社会属性。 2 1 2 语音的声学特性 语音同其他的声音一样,也具有声音的物理属性,即语音同样具有一定的音色、音 调、音强和音长。音色也叫音质,是一种声音区别于其他声音的基本特征。语音的音色 与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关。音调是指声音 的高低,汉语中又称为音高。音调取决于声带的振动频率( 基频) 。基频越高,音调越 高,声音的强弱叫做音强,它取决于声波振动的幅度。声音的长短叫做音长,它取决于 发音持续时间的长短。 语音信号的最基本组成单位是音素,音素可分为“清音 和“浊音”两大类。音节 是由音素结合而成的语音流最小单位,是发声的最小单位。词是由音节结合而成的更大 单位。节奏群和句子是词的进一步结合。 一个音节由元音( v o w e l ) 和辅音( c o n s o n a n t ) 构成。元音是由声带振动发出来的 乐音,构成了一个音节的主干,无论从长度看还是从能量看,元音在音节中都占主要部 分。所有元音都是浊音。辅音则是由呼出的声流克服发音器官的阻碍而产生的。发辅音 时如果声带不振动,发出的辅音称为清辅音,如果声带振动,发出的辅音则成为浊辅音。 5 第一二章m e l p 语音水缩编码皋础简介 辅音出现在音节的前端或后端或前后端。汉语的音节结构框架如图2 1 : 图2 1 汉语的音节结构框架 f i g 2 1s t r u c t u r a lf r a m eo fc h i n e s es y l l a b l e 如图2 1 所示,单独发声的一个音节或语音流中的任何一个音节都可能由9 个部分 组成,其中l 4 段属于声母( 辅音) ,6 - - 一9 段属于韵母( 元音) ,第5 段是声母和韵母 的过渡段。对一个具体指定的音节,有可能只包含其中的某几段,但第7 段( 主要元音 段) 是每一个音节都具有的。 2 1 3 语音信号产生的数字模型 为了对语音信号进行数字处理,首先要建立一种能够精确描述语音产生过程和语音 特征的数字模型。根据发声器官的语音的产生过程,语音信号可由图2 2 所示的源系统 模型产生,源和系统参数的选择使所得到的输出具有所要求的类似语音的性质。即把激 励特性和声道及辐射特性分离开来,声道及辐射的影响用一个时变线性系统来考虑,激 励发生器则产生一种信号,它或是一串( 声门) 脉冲,或是随机变化( 噪声) 的信号。 源; :系颈渗数的选择使所得到的输出具有所要求的类似语音的性质。 6 第一二章m e l p 语音压缩编码基础简介 图2 2 语音产生的源系统模型 f i g 2 2s o u r c es y s t e mm o d e lo fs p e e c h 音输出 上述源系统模型可展丌为可实现的数字模型,如图2 3 所示。激励源分为浊音和清 音两个分支,按照浊音清音丌关所处的位置来决定产生的语音是浊音还是清音。浊音 清音开关模拟了加在声道上的激励的改变情况。当开关接在浊音位置时,激励信号是由 周期脉冲发生器产生的周期为0 的脉冲序列,即每隔“便有一个样值为1 ,而其他样 值均为o 。o = ,厶,z 为采样率。当工= 8 k h z ,= 5 0 - - 4 5 0 h z 时,n o = 1 8 1 6 0 个样点;当丌关接在清音位置时,激励信号是是随机噪声发生器产生的序列,可令该序 列服从均值为0 ,方差为1 的高斯分布。 i尸矩学争刃【 土 4 周期脉 模型( z ) i 一 冲发生 器 以i 声道模 制辐射模 型v ( z )型r ( z ) 臼噪声发 。 叭 生器 7 旷 图2 3 语音倍号产生的数字模型 f i g 2 3d i g i t a lm o d e lo fs p e e c hs i g n a l 7 音信 s ( n ) 第二章m e l p 语音压缩编码基础简介 1 声门脉冲模型g ( z ) 的作用是:使浊音的激励信号具有声门气流脉冲的实际波 形。 2 增益因子a ,和4 ,分别用于调节浊音语音和清音语音的幅度或能量。 3 声道模型v ( z ) 给出声道的传输函数,把实际声道作为一个变截面声管加以研 究。 4 辐射模型兄( z ) 与嘴有关,冠( z ) 一般可以表示为r ( z ) = ( 1 一陀叫) ,1 。 数字语音处理中的语音分析和语音合成问题都是基于上述模型来实现的。语音分析 是根据原始语音信号来估计信号模型的参数,而语音合成则是利用信号模型参数产生出 在可懂度和自然度方面可接受的语音来。 2 1 4 语音信号的数字化 数字信号是指时间和幅度均为离散的信号。为了把模拟语音信号变换成数字信号, 必须经过取样和量化两个步骤。取样是将时间上连续的语音信号x a ( f ) 离散化成一个样 本序列x ( 栉) = x 。( n t ) ,t 为取样周期;量化则是将该序列的样本幅度再离散化,从而得到 时间和幅度都为离散值的数字语音信号。下图2 4 给出了语音信号数字化的一般方框图: 图2 4 语音信号数宇化的一般框图 f i g 2 4s p e e c hs i g n a ld i g i t i z a t i o nc h a r t 取样带来的一个问题是有用的信息是否会丢失,即能否从序列x 0 ) 中恢复出x 。( f ) 。 取样定理对这个问题作了明确回答。 根据取样定理,如果信号l ( f ) 的频谱是带宽有限的,即 以( c o ) = 0 ,缈 2 矾 8 第_ 二章m e l p 语音压缩编码綦础简介 而x o ( t ) 能够唯一从它的样本序列x 。( 疗丁) 重构的条件是: 只:i 1 2 c 也就是说,当取样率大于信号的两倍带宽时,取样过程不会丢失信息,从x ( n ) 可以 精确重构原始波形,它们之间的关系由下面的插值公式( 2 1 ) 确定: 以归塾忉咖c 宁 公式( 2 i ) 当只= 2 c 时,又称为n y q u i s t ( 尼奎斯特) 频率。 量化,就是将时间上离散而幅度仍连续的波形幅度值离散化。抽样幅度量化过程就 是将整个幅度值分割成有限个区间,把落入同一区间的样本都赋予相同的幅度值。 2 1 ,5 语音信号的预处理 在真正的语音信号分析和处理之前,必须先进行信号的预处理。除了前面讨论的数 字化之外,还应包括放大及增益控制、反混叠滤波、预加重。在需要语音输出的场合还 要进行d a 变换和起平滑作用的模拟低通滤波。图2 5 为一般语音数字分析或处理的系 统框图。 图2 。5 语音信号处理系统框图 f i g 2 5c h a r to fs p e e c hs i g n a ld i s p o s a ls y s t e m 9 第_ 二章m e l p 语音压缩编码基础简介 2 1 6 语音信号的短时性 语音信号的特征是随时问而变化的,只有在一短段时间间隔内,语音信号才保持相 对稳定( 平稳) ,语音信号的这种特性称为“短时性”,这一短段时| 、日j 一般可取5 5 0 m s 。 语音信号的分析和处理一般建立在“短时性”基础上,即对语音信号流采用分段或分帧 来处理。一般每秒的帧数为3 3 - - 1 0 0 ,视实际需要确定。 2 2 语音编码技术 语音编码目前主要分为三类,即波形编码、参数编码和混合编码。 2 2 1 波形编码 波形编码力图使重建语音波形保持原语音信号的波形形状,它通常将语音信号作为 一般的波形信号来处理,具有适应能力强、话音质量高等优点,但它所需要的比特率高, 通常能在6 4 1 6 k b s 的速率上给出高的编码质量,当速率进一步降低时,其性能会迅 速下降。 2 2 2 参数编码 参数编码则通过对语音信号分析参数进行提取和编码,力图使重建语音信号具有尽 可能高的可懂性,即保持原语音的语意,这使重建语音信号的波形同原始语音信号的波 形可能会有相当大的差别,但其编码速率很低,可低至2 4 1 2 k b s 。参数编码的主要 问题使合成语音质量差,特别使自然度较低,另外,参数编码对讲话环境噪声比较敏感, 只有在安静的讲话环境下才能给出高的可懂度。在此毕业设计中即采用参数编码的方法 进行语音压缩。 2 2 3 混合编码 混合编码是将波形编码和声码器的原理结合起来,数码率约在4 k b i t s 1 6 k b i t s 之 闻,音质比较好,最近有个别算法所取得的音质可与波形编码相当,复杂程度介乎与波 形编码器和声码器之问。 i o 第二章m e l p 语爵挑缩编码皋础简介 2 3m e l p 语音编码策略 就目前具有通信质量的中、低码率语音编码器而言,1 6 k b s 和8 k b s 的技术已经标 准化和产品化,4 - - - 一8 k b s 是标准化制定和使用产品竞争的热点,主流仍为c e l p 类型的 技术,而重要的研究焦点,将逐步转向更低的码率,譬如2 4 k b s 或1 2 k b s 编码器。近 年来,国内外在丌展4 k b s 及其一下速率的语音编码研究方面,主要代表算法有四个: 1 多带激励编码( m b e m u l t i b a n de x c i t a t i o nc o d i n g ) 2 正弦变换编码( s t c s i n u s o i d a lt r a n s f o 肌c o d i n g ) 3 混合激励线性预测( m e l p m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ) 编码 4 波形内插( w l w a v e f o t i ni n t e r p o l a t i o n ) 编码 其中。m b e 和s t c 为基于f 弦合成分析模型( s a s m 一一s i n u s o i d a l a n a l y s i s s y n t h e s i sm o d e l s ) 的语音编码算法,m e l p 为基于二元激励模型的线性预测编 码算法,w i 为基于s a s m 和线性预测模型的混合型编码算法。 基本l p c 语音产生模型将语音分为清音和浊音两大类。清音模型采用自噪声作为 激励信号,浊音模型采用周期等于基音周期的脉冲序列作为激励信号,但它们的重建语 音有时听起来是机械的或蜂鸣的,倾向于讨厌的重击声和音调噪声。实际上,由于声门 张开时,除了主要的声门激励( 形成共振峰) 外,还可能有一些次要的激励,会影响共 振峰机构:声门关闭时,有时不够完全,会产生一些吸气噪声。这些都会破坏浊音时激 励气流的周期性。尤其是在清音、浊音之间过渡时,这种线性更加显著,这是由于过渡 帧往往既存在周期成分,又存在一定的非周期成分,实际上一个简单的脉冲序列是很难 构成产生各种语音信号的激励,而实际的语音信号也很难完全区分成清音或者浊音。 为了改善l p c 声码器的音质,m c c r e e 对混合激励模型进行了研究,并吸收了正弦 模型的一些思想,提出了m e l p 声码器算法。该算法把语音分为清音、浊音和抖动浊 音三种状态。抖动浊音采用非周期脉冲加白噪声作为合成激励信号,浊音采用周期脉冲 加白噪声作为合成激励信号。 采用这种新的分类模式,对语音的分类更加精细。更为重要的是,它从方法上解决 了二元模型对大量“中问”语音不能j 下确分类的难题,诸如过渡音或较弱浊音等语音的 分类;因为那些具有比较强的非周期性的语音( 清音) 和比较强的浊音是比较容易判别 出来的。其他语音采用混合激励后,无论是把它判作浊音还是抖动浊音,都能够通过混 合比例的调整给予较好的近似。 因而,可以较好地改善合成语音地自然度。同时,也可以减少激励信号中脉冲成分或噪 第_ 二章m e l p 语音压缩编码綦础简介 声成分过多所带来地合成噪声,使语音听起来更清晰,从而达到提高语音质量的目的。 2 4m e l p 算法中的几项关键技术 与基本l p c 模型相比,m e l p 算法的特点是改善了l p c 模型的激励源,这是m e l p 算法的出发点和成功之处,m e l p 算法中的关键技术主要有以下几个方面。 2 4 1 分带混合激励形式( m i x e d e x o l t a t j o n ) 采用分带混合激励是m e l p 模型中最重要的特征。分带的思想来源于m b e 算法, 采用分带处理可以使得从频域上对激励信号的刻划更加精细,合成的激励也就更加准 确。在2 4 k b s 的m e l p 算法中,将0 4 k h z 的语音频带分成固定的频段进行处理。由 于低频部分对语音的影响更大一些,并便于基音提取,对低频段的划分应该更精细一些。 对于每一个非清音帧( 包括浊音帧和抖动浊音帧) ,在各个子带分别计算话音强度 ( 清浊音混合比例) ,计算结果决定了本子带内脉冲源和噪声源在形成激励信号时的加 权值。经分带滤波的脉冲源和噪声源按照上述办法加权相加,得到整个频带的激励信号。 混合激励的合成质量取决于分带滤波器的频响和各子带混合比例的计算。理想的激 励信号应具有平坦的功率谱,同时,在各个频带上脉冲和噪声加权相加后的功率之和应 保持常数。因此,当各个带的加权值全为1 时,要求整个带激励是一个无畸变的脉冲。 各子带清触音混合比例可出输入语音在各子带内的脉冲成分和噪声成分的相对功 率决定。一种计算相对功率的办法是,计算该子带内输入语音时延基音周期长度的归一 化自相关值。这种办法对于较平稳的语音段非常适合,但是在某些基音变化较快的语音 段,虽然周期性仍很强,但归一化自相关值却可能变得很低,尤其时在频率较高的子带, 这将导致混合激励中脉冲成分比例过低,合成语音会带有噪声。 另一种办法是提取其低频分量进行处理。带通滤波后的语音经全波整流和一个一阶 滤波器平滑,并去除直流后得到其包络信号,用它求取归一化自相关值。在较高频率是, 这些包络信号能够更好地反映基音周期的值,对它进行自相关分析是,基音周期的细小 变化不会对自相关值产生较大的影响。 m e l p 算法把两种方法结合起来,在计算相对功率时用两种方法分别计算,取其中 较大的值作为结果。 1 2 第_ 二章m e l p 语青胝缩编码皋础简介 2 4 2 使用非周期脉冲( a p e ri o d i cp u l s e ) 采用混合激励可以减少合成语音中的蜂鸣噪声,但是可能还会出现另一种类似电流 声的单音噪声,尤其是对基音较高的女性讲话者和有噪声时。通过在激励信号中混入较 多的低频白噪声以减弱其周期性,可以去除这些噪声,但这样会使合成语音昕起来有些 嘈杂。在m e l p 算法中使用一种更有效的处理办法非周期脉冲。m e l p 是按照基音 周期合成语音的,通过让基音周期t 在0 7 5 t 到1 2 5 t 之问随机变动来减弱其周期性。 采用这种办法可以更好的模拟那些不稳定的声门脉冲。 在基音提取时,强浊音可以由归一化自相关值很容易地判别出来。由于抖动浊音对 应于不稳定的声门脉冲,所以它地自相关值处在清浊音的边缘,可以据此检测出来。另 外,还可以通过输入语音中的峰点值进行检测。这罩,峰点值为全波整流后的l p c 残 差信号地均方根值与均值之比。 需要说明的是,采用非周期脉冲要基于这种混合激励的算法,如果单纯使用非周期 脉冲,可能会使语音质量恶化。 2 4 3 残差谐波谱的处理( s u i v i v a lh a r m o n i c ) 在l p c 残差信号中含有大量语音特征。限于码率的原因,以往的低速率l p c 算法 在生成激励脉冲时,只反映了它的周期性,并没有反映它的幅度特性,因而不能很好地 反映实际激励脉冲动态变化的特性。近几年来,由于采用了矢量量化和l s p 技术,使 得线性预测参数的量化比特数目较以往大大减少,可以多空出几个比特。在m e l p 算 法中,把这几个比特用于对残差信号的处理。 用这几个比特很难全面描绘残差信号的特性,m e l p 算法借鉴p w i 算法的做法, 只能对较重要的特征各基音周期谐波处的傅立叶级数幅度值进行矢量量化。残差信 号中对语音影响大的低频带,经过对谐波数目和量化误差与合成语音效果之间的关系的 权衡考虑,2 4 k b s 的m e l p 算法对最低l o 阶谐波进行矢量量化,对1 0 阶以上谐波的 傅立叶级数幅度值认为是平坦的,由单位值来代替。对于这样得到的谱,按基音周期进 行离散傅立叶反变换,得到周期脉冲激励序列,它比固定的脉冲序列提供了更多的灵活 性。对残差谐波谱的传输,在很大程度上提高合成语音的自然度、清晰度和抗背景噪声 能力,大大改善了l p c 合成语音发闷、嘶哑和合成音重等弱点。 第二章m e l p 语音h ;缩编码皋础简介 2 4 4 自适应增强技术( a d a p t i v es p e c t r a if ii t e ri n g ) 由于人说话时声道的共振峰带宽即使在一个基音周期内也可能发生变化,并且l p c 这种全极点的模型削弱共振峰的特征,同时还由于量化误差等原因,l p c 合成滤波器的 极点形状与自然语音的共振峰形状存在偏差,导致了在共振峰之间合成语音谱的波谷不 如原始语音谱的波谷尖锐,使合成语音听起来发闷。为了使合成语音与原始语音在共振 区有更好的匹配,m e l p 算法引入了自适应谱增强技术。 自适应谱增强通过让激励信号经自适应谱增强滤波器而实现。自适应谱增强滤波器 是由系数自适应变化的阶数等于线性预测结束的零极点滤波器与1 阶零极点滤波器级 联而成的滤波器组。通过突出激励谱中共振峰频率处的谱幅度,可以达到提高整个短时 谱在共振峰处的信噪比的目的,这也符合线性预测残差信号仍包含一定的共振峰形状的 特性。其中,极点滤波器的作用使衰减共振峰之问的频率分量,突出共振峰的结构;零 点滤波器的作用使补偿对共振峰之间频率分量的衰减;1 阶零极点滤波器的作用使补偿 由零极点滤波器引起的频谱倾斜。零极点滤波器的系数均由l p c 系数相应乘以一个自 适应比例因子得到。 在许多基于共振峰谱包络合成的中低速语音编码算法中都采用这种自适应谱增强 技术,其实现原理较简单,算法复杂度不高,对编码端没有额外传输比特的要求,是加 强低速语音编码质量的实用技术。 2 。4 5 脉冲离散滤波( p u l s ed i s p e r s i o n ) 进行脉冲离散滤波的目的,是为了让分带合成的那些语音与原始语音在非共振区波 形上具有更好的匹配。对比合成语音和原始语音的带通包络,可以发现,他们的波形存 在一定的差异,特别是当语音帧的周期性很强时,峰值的大小有明显的区别。周期性较 强的语音,是通过声门的周期性开闭产生声门脉冲激励声道产生的。产生实际语音时, 这是很复杂的,主要原因是: 1 人说话时声门丌闭并不一定很完整,往往除了主要的声门脉冲( 形成共振峰) 外,还可能在主要脉冲之i 日j 出现一些小的二次谐波。 2 声门关闭不完全,会造成一些吸气噪声。 3 两次大的激励峰之间由于声道作用的非线性,可能会出现一些背景噪声。 以上因素会造成声门激励脉冲的峰值并不集中在时域的一个点上,并且使语音的周 期性发生一定的混淆。l p c 合成时很难对这些复杂的现象进行准确的模拟,致使合成语 1 4 第一二常m e l p 语音压缩编码基础简介 音同原始语音相比,在一个周期内的峰一峰值更加尖锐。同时,l p c 分析的共振峰带宽 比实际应有的要大,会引起某些频带处的谐波信号衰减较大。 为了使合成语音符合原始语音的这一变化情况,获得较为自然的语音,应对合成语 音的峰一峰值进行平滑。其方法很多,可以在周期激励中引入第二个峰值,或改变周期 激励谱的形状,但这些方法可能会破坏原有的激励模型,引入其他失真。 为了保持原有激励模型的优点,m e l p 算法在语音合成后加级后处理脉冲离 散滤波。该滤波器为f i r 滤波器,其系数是通过将典型男性周期脉冲的谱强制变为平坦 谱,再进行傅立叶反变换得到的,它具有减弱某些频带处周期性的作用,降低了基音周 期为典型周期附近时的峰一峰值,使合成语音的蜂鸣效果降低,变得更为连贯、自然。 1 5 第三章算法系统分析 第三章算法系统分析 这一章将对算法进行系统分析,给出系统模块划分,语音压缩、解压流程,以及压 缩、解压的文件流程,介绍算法的总体思路。 3 1 算法系统模块划分 3 1 1 算法系统总体划分 1 编码器( e n c o d e r ) ( 1 ) 高通滤波器; ( 2 ) 低通滤波器; ( 3 ) 基音检测器; ( 4 ) 带通滤波器: ( 5 ) l p c 波形分析器; ( 6 ) m e l p 参数码字分配; ( 7 ) 语音压缩处理( 保留奇数段参数信息) : ( 8 ) 字符形奇数段参数文件转化为位参数文件。 2 解码器( d e c o d e r ) ( 1 ) 位参数文件转化为字符形奇数段参数文件; ( 2 ) 奇数段参数信息线性插值处理; ( 3 ) 恢复后的语音信息存盘处理; ( 4 ) 参数文件转化为语音文件。 以上为系统功能模块的概要划分,在实际完成的算法系统是需要编码器和解码器十 几个功能模块的相互协同才能具体实现。 3 1 2 语音压缩、解压处理流程 1 语音压缩处理流程图。如图3 1 : 1 6 第三章算法系统分析 输 图3 1 语音压缩处理流程 f i g 3 1f l o wc h a r to fs p e e c hc o m p r e s s i o nd i s p o s a l 2 语音解压处理流程图。如图3 2 : 1 7 第三章算法系统分析 输 出 输 入 3 2 高通滤波器 图3 2 语音解压处理流程 f i g 3 2f l o wc h a r to fs p e e c hd e c o m p r e s s i o nd i s p o s a l 高通滤波器是滤波器中的一种,是让高频通过,滤掉低频随着电子技术的发展, 滤波器已经不再是电容、电阻、电感搭成的电路,大多数已经变成数字电路甚至就是软 件,即软件滤波器。在本设计中选用的高通滤波器就是用软件实现的。 由于通常的语音信号在采样时常会受到低频直流信号的干扰,会在语音信号中掺杂 着许多低频直流噪声干扰信号,因此我们要在对语音信号处理之前先将这些低频直流信 号滤除掉,因此我们要选用高通滤波器,使得频率在6 0 h z 以上的可以通过,以下的频 率数据就要被滤除掉,这样就可以得到无低频噪声干扰的语音信号,增强中音和高音成 分以驱动扬声器的中音和高音单元。 3 3 低通滤波器 低通滤波器是指能够让低频信号通过而不让中、高频信号通过的电路,其作用是滤 去音频信号中的中音和高音成分,增强低音成分以驱动扬声器的低音单元。 1 8 第三章算法系统分析 由于语音信号中也存存着高频信号的干扰,会在语音信号中参杂许多高频噪声干扰 信号,因此我们还要再对语音信号进行低通滤波处理,来取出语音信号中的高频噪声, 使得频率在1 0 k h z 以下的可以通过,以上的频率数据就要被滤除,这样才可以得到无 高频噪声干扰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论