




已阅读5页,还剩98页未读, 继续免费阅读
(信号与信息处理专业论文)高质量4kbs语音编码算法研究与dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语音编码是实现语音数字化传输和存储的基础。拥有长途话音质量的4 k b s 及4 k b s 以下速率的语音编码器是当前研究的热点。本文基于码激励线性预测语 音编码模型,以散布脉冲码激励线性预测语音编码器为原型,提出了一种高质量 的4 k b s 语音编码算法。 该算法的固定码书采用非均匀和部分搜索域代数码书搜索算法,非均匀代数 码书由代数码书的脉冲非均匀统计特性确定,部分搜索域代数码书则由代数码书 矢量的周期性确定,该方法有效地弥补了低比特率情况下代数码书中脉冲数不足 的缺点。在使用上述两项技术时,为保持基音的连续性,该编码器对浊音段和清 音段采用了不同的基音检测方法。线谱频率参数的量化采用以加权欧式距离为测 度的快速算法,前四维矢量和后六维矢量的计算复杂度分别下降为原来的2 3 和4 3 。主观和客观的听力测试表明,与原算法相比,本文所提出的4 k b s 语音 编码算法的重建语音质量得到了明显改善,尤其是对女性讲话者。 最后,本文在t m s 3 2 0 v c 5 4 1 0 定点d s p 开发系统上对改进的4 k b s 语音编 码算法进行了实时实现。整个系统占用程序存储空间1 0 2 5k ,占用数据存储空 间2 0 7 5 k ;编码算法复杂度约为4 9 m i p s ,解码复杂度约为5 2 m i p s 。客观测试 结果显示,d s p 定点程序处理后的合成语音质量非常接近于浮点c 语言处理后 的结果,达到了预期的要求。d p c e l p 语音编解码算法在定点d s p 上的实时实 现,产生出了性价比极高的语音处理系统,在数字存储、多媒体通信等领域有着 广泛的应用前景。 关键词:语音编码,码激励线性预测,d s p 技术 a b s t r a c t s p e e c hc o d i n gi st h ef i m d a t i o no fd i g i t a lt r a n s m i s s i o na n ds t o r a g eo fs p e e c h r e c e n t l y ,t h e r ei sg r e a ti n t e r e s t si nd e v e l o p i n gt o l l - q u a l i t ys p e e c hc o d e r sa tr a t e so f 4 k b sa n db e l o w ah i g hq u a l i t y4 k b ss p e e c hc o d i n ga l g o r i t h mw a sp r o p o s e di nt h i s t h e s i s ,w h i c hi sb a s e do nc o d ee x c i t e dl i n e a rp r e d i c t i o nm o d e la n dd i s p e r s e dp u l s e c e l pa l g o r i t h m 口瞎n o n - u n i f o r ma n d p a r t - s e a r c h i n g - a r e aa l g e b r a i c c o d e b o o k s e a r c h i n g a l g o r i t h mi sa d o p t e di nt h ef i x e dc o d e b o o k t h en o n u n i f o r ma l g e b r a i cc o d e b o o ki s d e t e r m i n e db yt h en o n - u n i f o r ms t a t i s t i c a lp r o p e r t i e so ft h ea l g e b r a i cc o d e b o o k ,a n d t h ep a r t - s e a r c h i n g - a r e ai sd e t e r m i n e db yt h ep e r i o d i c i t yo ft h ea l g e b r a i cc o d e b o o k e x c i t a t i o nv e c t o r , w h i c hm a k e su pf o rt h ei n s u f f i c i e n tn u m b e r so fs i g n e dp u l s e si n a l g e b r a i cc o d e b o o ka tl o wb i tr a t e i no r d e rt op r e s e r v et h ec o n t i n u i t yo fp i t c h , d i f f e r e n tp i t c hd e t e c t i o nm e t h o d sa r ee m p l o y e df o rv o i c e d u n v o i c e df r a m e sw h e n t h e s et w ot e c h n i q u e sa r eu s e d t h ef a s t s e a r c ha l g o r i t h mb a s e do nt h ew e i g h t e d e u c l i d e a nd i s t a n c ew a se m p l o y e di nt h eq u a n t i z a t i o no fl i n es p e c t r u mf r e q u e n c y p a r a m e t e r sa n d t h ec o m p l e x i t i e sf o rc a l c u l a t i n gt h et h ef i r s tf o u rl s fp a r a m e t e r sa n d t h el a s ts i xo n ea r er e d u c e dt o2 3 a n d4 3 r e s p e c t i v e l y s u b j e c t i v ea n do b j e c t i v e t e s tr e s u l t si n d i c a t et h a tt h er e c o n s t r u c t e ds p e e c hq u a l i t i e so f 4 k b sd p - c e l ps p e e c h c o d e ra r ei m p r o v e db a s e do nt h e s et e c h n i q u e s ,e s p e c i a l l yf o r t h ef e m a l es p e a k e r s f i n a l l y , t h ei m p r o v e d4 k b ss p e e c hc o d i n ga l g o r i t h mi si m p l e m e n t e do nt h e t m s 3 2 0 v c 5 4 1 0f i x e d - p o i n td s pb o a r d ,a b o u t1 0 2 5 kp r o g r a ms p a c e sa n d2 0 7 5 k d a t as p a c e sa r ec o n s u m e db yt h i ss y s t e m ;a b o u t4 9 m i p sa r en e e d e db yc o d e rw h i l e a b o u t5 2m i p sb yd e c o d e r o b j e c f i v et e s ti n d i c a t e dt h e r ei sn op e r c e p t u a ld i f f e r e n c e f o rt h er e c o n s t r u c t e ds p e e c hq u a l i t yc o m p a r e dw i t ht h eo r i g i n a lcp r o g r a mr e s u l t t h i s s p e e c hp r o c e s s i n gs y s t e mh a sah i g hr a t i oo fp e r f o r m a n c et op r i c e ,w h i c hi se x p e c t e d t ob e w i d e l ye x p l o i t e d i n a p p l i c a t i o n s s u c ha sd i g i t a l s t o r a g e ,m u l t i m e d i a c o m m t m i c a t i o n s k e y w o r d s :s p e e c hc o d i n g ,c o d ee x c i t e dl i n e a rp r e d i c t i o n ,d s pt e c h n i q u e l v 北京工业大学工学硕士学位论文 本文得到了北京市教委科技发展项目( k m 2 0 0 3 1 0 0 0 5 0 2 4 ) 、国家 自然科学基金( 6 0 3 7 2 0 6 3 ) 和北京市自然科学基金( 4 0 4 2 0 0 9 ) 的资 助。 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 入已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:囱丝垒 臼期: 关于论文使用授权的说明 c ) 。,s 岛| s 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 乏名:鱼垂皇导师签名日期:之! 坚:垒堑 1 1 课题背景 第1 章绪论 语言是人类相互沟通信息的重要工具。随着信息科学技术的飞速发展,语音 处理技术在最近2 0 多年中取得了重大进展,特别是语音通信和各种语音产品的 广泛普及,数字语音处理技术已深入到我们生活的每一个角落,在越来越多的领 域中发挥着巨大的作用。在工业控制领域,对所采集的参数( 温度、压力、流量、 电压、电流、相位及频率等) 、运行过程、结果和操作步骤的提示采用语音播报 比传统的数码管、l e d ( l c d ) 和指针仪表等显得更为直接明确。在电子通信领域, 数码电话答录机能完成无人值守,并可自动记录来电的各种语音信息;基于语音 的自动报时台、股票交易系统、煤气、水电查询服务系统、气象预报和电话银行 等已经相当的普及。在运输交通领域,数字语音存储技术已广泛用于公共汽车、 地铁、出租车和电梯等运输工具,实现语音报站,极大地方便了人们的出行;车 站、港口、机场使用钟控智能语音播报器,能够减轻播音员工作强度,有效地提 高服务质量。在工业调度、军事领域,火车、飞机、军舰使用的语音黑匣子,工 业调度、侦辑办案使用的长时间数码录音机,均要求使用具有耗电少、体积小、 抗断电、语音信息永久保存等特点的数字语音存储技术。 在各种语音信号数字处理产品中,语音记录和回放系统有着广泛的应用前 景,它主要应用在语音记录、话音档案、数字语音存储等领域。随着计算机性价 比不断提高和应用的普及,由计算机管理的语音数字处理系统越来越受到重视。 语音编码是实现语音数字化传输和存储的基础。语音编码技术飞速发展,在 国际标准化工作中堪称最活跃的领域之一。到9 0 年代中期,速率为5 3 8 k b s 的波形与参数混合编码器,在语音质量上已逼近3 2k b s 的标准a d p c m 波形编 码器【”。 各种高性能语音压缩编码算法的实时实现推动了数字语音存储系统的发展, 目前国内已有部分系统问世,如中国科技大学用a d s p - 2 1 8 1 实现了多路数据的 压缩采集并将其应用于某语音记录设备中,其中采用的语音压缩算法是1 3 k b s r p e l t p l p 编解码算法【2 】,清华大学电予工程系和山东淄博学院机电系等单位 北京工业大学工学硕士学位论文 联合用a d s p 。2 1 2 8 处理器等开发的双通道数字语音监录器已应用于铁路调度系 统中,其中采用的语音压缩算法是i t u t 的g 7 2 3 1 t3 1 。国外商品化的语音信号 处理机也已闯世,如k a y 公司的c s l 蹦( c o m p u t e r i z e ds p e e c h l a b ) 。 但是,目前国内外基于语音编码技术开发的语音存储系统及基于语音芯片研 制出的语音存储器,基本上采用的都是标准化的中、高速率语音编码算法。如果 将低速率的语音编码技术应用于语音存储系统,将大大地提高存储效率。因此, 将低速语音编码技术应用于语音存储、语音应答以及其它一些语音应用系统中, 具有极大的市场吸引力。 码激励线性预测( c e l p ) 编码算法“1 是近十年来最成功的语音编码算法。 许多以c e l p 技术为基础的编码器都被采纳为国际或地区性标准。它以语音线性 预测模型为基础,对残差信号采用了矢量量化,搜索过程用合成分析方法,并采 取感觉加权均方误差最小判决准则,在4 8 1 6 k b s 速率范围内获得了巨大的成 功。当前国际上有关语音编码研究的热点之一是开发能够达到长话质量的4k b s 的语音编码算法,使其性能接近r r u t8 k b s 的标准g 7 2 9 t 5 1 。 本文将基于码激励线性预测( c e l p ) 编码模型,提出一种高质量的4 k b s 的低速率语音编码算法,用高性能的定点数字处理芯片( d s p ,d i g i t a ls i g n a l p r o c e s s o r ) 将其实时实现,并应用于语音存储系统。与现有的系统相比,由于采 用了压缩比更高的算法,存储效率更高,系统可记录的话音数据量更大。而且该 系统的核心算法具有自主的知识产权,因此在产品成本上更具竞争力。 1 2 研究目标 本课题研究的目标定为:研究4 k b s 码激励线性预测( c e l p ) 语音编码技 术,发现c e l p 类语音编码器的不足,对鲍长春教授提出的4 k b sd p c e l p 语音 编码算法“1 进行改进,重点是提高语音编码器的合成语音质量,并适当考虑算法 复杂度问题。改进算法首先在p c 机上用c 语言的浮点程序仿真实现,然后再将 其转换为d s p 定点汇编语言。希望最终能够实现一个高质量的4 k b s 语音编码算 法,并移植到d s p 系统中。该算法的性能应能够满足公安、交通、银行、航空 与铁路调度、旅游、通信等领域对语音记录和话音档案管理的需求。最后,以此 算法为核心压缩技术,在d s p 评估板上实现一个独立工作的实时语音处理系统, 2 第1 章绪论 为最终研制一个集语音输入、压缩、存储、回放于一体的硬件系统打下坚实的基 础。 1 3 主要研究内容 根据本课题的研究目标,主要研究内容如下: 1 基于c e l p 语音编码模型,研究适合于存储的低复杂度、高质量的4k b s 语 音编码技术,主要包含如下四方面的关键技术研究; a ) 感觉加权滤波器的研究; b ) 对语音帧分类,针对不同语音帧的特点,采用不同的量化方案; c ) 针对低比特c e l p 语音编码算法中固定码书脉冲数不足的缺点,进行多 个子码书结构的算法研究: d ) 线谱频率参数量化的快速算法的研究。 2 编解码算法的d s p 仿真实时实现,主要包含如下两方面的研究: a ) 借助d s p 仿真器,用汇编语言实现整个编解码算法: b ) 优化程序代码,减少程序指令周期消耗,保证算法的实对性。 3 基于d s p 的实际应用系统开发,主要包括如下三方面的研究: a ) 系统数据采集模块的驱动程序的编写; b ) 用于系统启动时加载程序代码的用户b o o t l o a d e r 程序的实现; c ) 以闻亭公司的评估板( e v m ) 为平台,实现一个语音压缩实时处理系统, 可以独立于p c 机工作。 1 4 研究方法和技术路线 1 4 i 研究方法 在算法的研究阶段,使用m i c r o s o f tv i s u a lc + + 6 0 集成开发环境编写算法的 浮点c 程序并进行调试。依据主观听力比较和i t i j t 的语音质量客观评价标准 p 8 6 2 e 7 】得到的结果,评判各种改进方案的合成语音质量,从而确定最优的编码方 案和系统参数。 在算法的d s p 实现阶段,使用t i 公司的c c s1 2 ( c o d ec o m p o s e rs t u d i o ) 3 北京工业大学工学硕士学位论文 集成开发环境编写定点汇编代码并进行调试。首先使用s i m u l a t o r 仿真环境,完 成整个算法的软件实现;然后利用该开发环境的p r o b e 和f i l e1 1 0 功能,将定点 算法的处理结果存成文件,验证算法实现的正确性。 在算法的优化阶段,使用c c s 提供的p r o f i l e r 功能得到各模块的算法复杂度, 依据该结果有重点地进行算法优化。 最后,应用闻亭公司的x d s 5 1 0 仿真器和e v m 评估板,进行e m u l a t o r 仿真。 合成语音结果无误后,实现独立的脱机系统。 1 4 2 技术路线 1 综合考虑多种编码技术,制定一种4 k b l s 的语音编码方案; 2 用c 语言在p c 机上实现该编码方案,合成语音质量要优于原先的d p c e l p 算法; 3 将浮点c 语言算法转化为t m s 3 2 0 v c 5 4 1 0 定点d s p 汇编语言,使定点算法 的合成语音质量接近于浮点算法; 4 优化汇编语言算法,保证算法能够在t m s 3 2 0 v c 5 4 1 0 定点d s p 上实时实现; 5 编写多通道缓冲串口、d m a 控制器和音频接口芯片的驱动程序,实现系统的 数据采集模块; 6 编写用于系统启动时加载程序代码的用户b o o t l o a d e r 程序,最终在d s p 评估 板上实现一个独立工作的实时语音处理系统。 1 5 本文的组织安排 第二章将对语音编码技术进行概述,主要介绍语音编码器的分类,语音编码 质量的主客观评价方法以及语音编码的研究方向。第三章将系统地分析码激励线 性预测语音编码( c e l p ) 模型及其不足,并介绍一种4 k b s 散布脉冲语音编码算 法。第四章以散布脉冲语音编码算法为基础,提出一系列的改进方案和快速算法, 进而提出一种高质量的4 k b s 语音编码算法。第五章介绍数字信号处理器( d s p ) 的发展、分类,重点介绍了德州仪器( 2 i ,t e x a si n s t r u c m e n t ) 公司的 t m s 3 2 0 v c 5 4 1 0 定点d s p 芯片及其编程方法。第六章详细介绍将本文提出的 4 k b s 语音编码算法在t m s 3 2 0 v c 5 4 1 0 定点d s p 芯片上实时实现的关键技术。 4 最后在第七章对全文进行了总结。 第四章和第六章是本文的重点。 第2 章语音编码概述 2 1 语音编码概述 第2 章语音编码概述 语音编码作为一项技术已经存在六十多年了。它的研究源于二十世纪三十年 代末,贝尔实验室的d u d l e y 研制成功的声码器。”。这种声码器为减少语音信号 中存在的冗余,打破了语音信号原有的内部结构,以提取负载信息的参量加以传 输,并用这些参量在接收端重新合成语音。在当时,语音编码的目标是提供一种 压缩技术以应对a t & t 网络上持续增长的语音数据量。但由于微波系统和后来的 光纤传输系统的发展,语音编码的最初需求并未成真。近年来,随着无线和v o i c e o v e ri p 系统的快速增长,语音编码技术又重新得到了飞速发展,在国际标准化 工作中堪称最活跃的领域之一。国际电信联盟( i t u ) 目前正在对4 k b s 的语音 编码器进行标准化“”。 语音编码的目的是在不引入过度失真的前提下,压缩语音信号,即:降低表 示语音信号的比特率,以利于存储和传输。在这一节中,我们对语音编码的一些 基本问题作一概要介绍。 2 1 1 语音编码器的分类 传统的语音编码算法可以分为两大类:波形编码和参数编码。 波形编码将语音信号作为一般的波形信号来处理,它力图使重建语音波形保 持原语音信号的波形形状,具有适应能力强、话音质量好等优点,但压缩能力差, 编码速率高,如脉冲编码调制( p c m ) “”、自适应增量调制( a d m ) 、自适应差 分脉冲编码调制( a d p c m ) “、自适应变换编码( a t c ) 等均属于波形编码, 它们在6 4 1 6 k b s 的速率上能给出高的编码质量,但编码速率进一步降低时, 其性能迅速下降。 参数编码的基础是把语音信号看成是某个模型在一定激励作用下产生的输 出,通过对激励源和模型的参数的提取及编码,力图使重建语音信号具有尽可能 高的可懂度,而重建信号的波形同原语音信号的波形可能会有相当大的差别。参 数编码的优点是编码速率低,可以低到2 4 k b s 以下。但合成语音的质量较差, 北京工业大学工学硕士学位论文 自然度较低,对背景噪声的坚韧性较小。各种声码器( v o c o d e r ) ,如通道声码器、 共振峰声码器以及线性预测声码器都是参数编码器。 人们在研究中发现,参数编码器的音质难以提高的原因并不在于声道模型, 而是由于对激励信号的描述不够精确。许多年人们直采用简单的二元激励,即 在浊音段,激励信号采用具有该浊音段基音周期的周期序列;在清音段,激励信 号采用白噪声序列。这类二元激励声码器把语音段要么看成是周期波形,要么看 成是随机波形,这不符合实际语音的特性,事实上语音段既含有周期分量,又含 有非周期分量,因此,合成的语音缺乏自然度,在背景噪声面前不具有坚韧性。 为此,大多数研究人员从激励模型入手,寻找突破口,设计高质量的声码器。 八十年代以来,语音编码技术迅猛发展,又产生了新一代的编码算法波 形参数混合编码。这类算法克服了原有波形编码和参数编码的弱点,结合了它们 各自的长处,采用矢量量化、感性加权和合成分析等技术,在4 8 1 6 k b s 的速 率上能够得到较高质量的合成语音。码激励线性预测编码算法( c e l p ) 、多脉冲 激励线性预测编码算法( m p e - l p c ) 、规则脉冲激励一长时预测一线性预测编码算 法( r p e l t p l p c ,即g s m 系统采用的编码算法) 、矢量和激励线性预测编码 算法( v s e l p ) 等都属于这类混合编码算法。图2 一l 给出了上面提到的各种语 音编码算法的速率对比。 图2 - 1 各种语音编码算法的速率对比 c e l p 是中速率语音编码中常用的一套技术,它以语音线性预测模型为基础, 对残差信号采用了矢量量化,搜索过程用合成分析方法,并采取感觉加权均方误 差最小判决准则,在4 8 1 6 k b s 速率范围内获得了巨大的成功。然而当速率进 第2 章语音编码概述 一步降低时,由于没有足够的比特表示激励矢量,残差信号的量化将产生较大的 误差,致使合成语音质量迅速下降。因此在4k b s 以下的低速率语音编码中, c e l p 技术不太适用。下面将简单介绍几种低速率语音编码的典型算法。 近年来国内外在4 k b s 以下的语音编码方案主要有四种:多带激励声码器 ( m u l t i b a n de x c i t a t i o nv o c o d e r , m b e ) 、正弦变换编码( s i n u s o i d a lt r a n s f o r m c o d i n g ,s t c ) 、混合激励线性预测( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n m e l p ) 和波形内插( w a v e f o r mi n t e r p o l a t i o n ,w i ) 。其中m b e 和s t c 为基于正弦合成分 析模型( s a s m ) 的语音编码算法,m e l p 为基于二元激励模型的线性预测编码 算法,w i 为基于s a s m 和线性预测模型的混合型编码算法。 m b e 声码器是八十年代由美国麻省理工学院( m i t ) 的d wg r i f f i n 博士提 出的“”。它突破了二元激励的局限性,将语音谱按各基音谐波频率分成若干个频 带,对备频带信号分别进行清浊判决,然后根据各频带是清音或浊音,采用不 同的激励信号产生其合成信号,最后将各频带信号相加产生全频带合成语音。 m b e 的分析过程采用了类似于合成分析法的方法,提高了语音参数提取的准确 性,在2 4 4 ,8k b s 速率上能合成出质量比传统声码器好得多的语音,具有较 好的自然度和容忍背景噪声的能力。 s t c 声码器是由r o b e r tj m c a u l a y 和t h o m a seq u a t i e r i 共同提出的【1 6 】。它 仍使用激励信号激励声道模型来产生语音,只不过是用一组幅度、频率和相位表 征的正弦波的叠加作为激励信号,这些参数可以用一个简单的峰值检出算法从短 时傅里叶变换中推出。当s t c 被用于低速率语音编码时,正弦波的频率被限制 在基音频率的整数倍上,分析端仅编码传输正弦波的幅度信息,相位信息在合成 端生成,这样可有效的降低编码速率,但合成语音质量有所降低。 m e l p 声码器最早由亚特兰大佐治亚理工学院的m c c r e e 博士提出f 1 7 。它采 用混合激励模型,能模仿较丰富的可能的语音特征集合,能产生更自然的语音, 对背景噪声具有坚韧性。这里的“混合”是指经滤波后的周期脉冲序列和滤波后 的噪声序列的组合。它以传统的l p c 参数模型为基础,引入四个附加特征:混 合激励、非周期脉冲、脉冲散布和自适应谱滤波。在1 9 9 7 年,一种2 4 k b s 的 m e l p 编码方案被采纳为美国联邦标准。 w i 方法最初来源于k l e i j n 博士提出的原型波形内插( p w i ) 语音编码算法“”。 9 北京工业大学工学硕士学位论文 = 詈詈暑詈鼍詈詈詈詈詈皇兰詈毫= 兰皇皇= 皇昌= 暑= = 皇= = = = = 暑= = = = 暑! 暑! 鲁置暑暑暑詈詈詈詈毫詈暑詈詈詈皇! 詈皇詈詈鼍鼍皇= i v y , 毫皇舞 p w i 以慢渐变的基音周期波形为基础,从激励信号中每隔2 0 m s 一3 0 m s 提取一个 基音周期段作为原型波形编码输出,在合成端通过线性插值得到其它基音周期段 的激励信号,合成的激励信号通过线性预测合成滤波器得到重建语音。p w i 在 3 0 4 o k b s 可获得好的语音质量,但它仅适用于浊音语音,清音语音还需用其 它方法( 如c e l p ) 来编码。为了进一步降低编码速率,k l e i j n 博士又提出了特 征波形( c w ) 分解语音编码算法“。该方法将语音信号表示为渐变的特征波形, 在浊音段,c w 慢渐变,在清音段,c w 快渐变。基于c w 的这种特性,用简单 的非自适应滤波器将c w 分解为慢渐变波形( 周期的) 和快渐变波形( 噪声的) , 基于感性认识,对这两种波形分别编码。该方法避免了清浊判决带来的影响,适 用于所有的语音段。 2 1 2 语音编码质量的评价方法 合成语音的质量是语音编码器最重要的属性之一。在数字通信的早期,信噪 比( s n r ) 经常被用来评估波形编码方案的好坏。1 9 8 4 年,f s l 0 1 5 - l p c 编码器 被开发出来。人们发现,该编码器的合成语音具有很好的可懂度,但信噪比却很 低。因此,需要研究新的测度以对这类参数编码器进行评估。 2 1 2 1 波形编码器的客观质量测度 p c m 、a d p c m 等波形编码器的性能只需通过某种信噪比( s n r ) 的形式度 量即可。其具体形式有: 倌噪比( s i g n a l t o - n o i s er a t i o ) :如果原始语音为x 【n ,合成语音为y 【n 】,信 噪比( s n r ) 定义为 可一 2 眦= 1 0 1 0 9 t 0 ( 豇薪 1 分段平均信噪比( s e g m e n t a ls i g n a l t o n o i s er a t i o n ,s s n r ) :这是对传统信 噪比的一个改进,适用于语音这种非平稳信号。s s n r 的定义为 s s n r = 寺跚。 ( 2 2 ) n 急 。 1 0 第2 章语音编码概述 也就是说,它是以帧为单位将信嗓比取平均值所得到的结果。性能不好的编码器 通常不能很好的处理低能量帧,使用s s n r 测度,这些帧的s n r 就会很低。但 是使用传统的s n r 就会将低能量帧的缺陷掩盖,这是因为传统s n r 的结果主要 由高能量区域的编码效果决定。s s n r 测度能够揭示出低能量帧的性能,因此是 一个更具主观意义的参数。 2 1 2 , 2 主观质量测度 在主观测试中,由组实验者对所听到的语音句进行打分。所有打分的平均 值就是所测语音的最终得分。测试通常是在各种不同环境下进行的,这样可以获 得对编码器性能的全面评价。主观评测的通常程序如下。 绝对等级分( a b s o l u t ec a t e g o r yr a t i n g ,a c r ) t 在这项测试中,要求实验 者在听完每一段所测语音后,从以下五个等级中选出个作为他对这段语音的评 价:优( e x c e l l e n t , 5 ) ,良( g o o d , 4 ) ,中( f a i r , 3 ) ,差( p o o r , 2 ) ,坏( b a d ,1 ) 。所 有实验者的平均分就是所测语音质量的m o s ( m e a no p i n i o ns o r e ) 分。 降质等级分( d e g r a d a t i o nc a t e g o r yr a t i n g ,d c r ) * 在这项测试中,首先播 放原始语音作为参考,然后再播放合成语音。要求测试者对两者进行比较,并从 以下五个等级中选出一个作为它对降质程度的评价:感觉不到( n o t p e r c e i v e d ,5 ) , 能感觉到但不令人厌烦( p e r c e i v e db u tn o ta n n o y i n g ,4 ) ,略微有些厌烦( s l i g h t l y a n n o y i n g ,3 ) ,令人厌烦( a n n o y i n g ,2 ) ,非常令人厌烦( v e r ya n n o y i n g ,1 ) 。所有实 验者的平均分就是所测语音质量的d m o s ( d e g r a d a t i o nm e a no p i n i o ns o r e ) 分。 比较等级分( c o m p a r i s o nc a t e g o r yr a t i n g ) :在d c r 测试中,语句播放的 顺序不同,最终的结果可能会有偏差。更好的方法是播放两段语音,让实验者比 较并评级。原始语音和合成语音的播放顺序是任意的或者是随机的。可供选择的 等级有:好很多( m u c h b e t t e r ,3 ) ,较好( b e t t e r ,2 ) ,略好( s l i g h t l y b e t t e r ,1 ) 几 乎相同( a b o u t t h es a i n e ,0 ) ,略差( s l i g h t l yw o r s e ,1 ) ,差( w o r s e ,- 2 ) ,非常差( m u c h w o r s e ,3 ) 。 主观测试结果的可靠性在很大程度上依赖于测试者的数量。一般来说,测试 者的最少人数为1 6 人。 j ! 塞三些奎主三兰翌圭兰竺丝兰 2 1 2 3 客观质量测度的改进 由于多数客观质量测度只适用于波形编码器,主观测试又花费太大,因此就 追求需要一种适用于低比特率编码器的客观失真测度。理想情况下,由它所得的 结果应该与主观测试结果高度一致。 从二十世纪八十年代开始,i t u t 就开始着手客观质量测度的研究。在经过 仔细的比较之后,感觉语音质量测度( p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e ,p s q m ) 算法得到了与主观质量评测最为一致的结果。在1 9 9 6 年,p s q m 正式成为i t u t 的一个标准p 8 6 1 t 2 们。 输入语音 合成语音 图2 - 9 p s q m 算法的结构框图 估计的 m o s 分 图2 - 2 给出了p s q m 算法的结构框图。算法首先估计并补偿编码器延迟。 感觉变换包含一个简单的听觉模型。映射函数用作将感知距离映射到m o s 分的 范围内。该算法类似于d c r 测试,参考信号与测试信号经比较后得到最终结果。 参考文献【2 1 提到了p 8 6 1 标准的一些局限性并给出了一种新的方法,进而 形成了一个新的标准 2 2 】。该技术被称作m n b ( m e a s u r i n gn o r m a l i z i n gb l o c k ) 。人 们发现这一方法在很多情况下对最终结果都有改进,尤其是在低比特率、误比特 和帧擦除的情况下改进非常明显。 但是,p s q m 和m n b 都不适用于端到端的电信网络,这是因为线性滤波、 可变延迟、背景噪声在此种环境下都是很普遍的。为了解决以上问题,在1 9 9 8 年的晚些时候,i t u t 又组织了一次选择新算法的竞赛。最终p e s q ( p e r c e p t u a l e v a l u a t i o no fs p e e c hq u a l i t y ) 算法脱颖而出,成为了r r u - t 新标准e 8 6 2 叽p e s q 第2 章语音编码概述 算法的评估效果与主观测试结果更为一致,且适用范围广,可应用于网络环境, 因而代表了客观语音质量评估技术的一个里程碑。 2 2 语音编码的研究方向 战。 语音编码作为语音信号处理的分支,从目前的研究现状来看,仍面临许多挑 2 2 1 宽带语音编码和音频信号处理 绝大多数语音编码器都应用于电话通信,此时带宽被限制在3 0 0 到3 4 0 0 h z 的范围内,采样频率为8 k h z ;这时的语音信号为窄带语音信号。当采样频率达 到1 6 k h z 时,带宽扩展到更低和更高的频带内,如:5 0 到7 0 0 0 h z 。带宽的增加 可以改善合成语音的自然度、真实感和舒适度,这些要素在电话会议、多媒体服 务中都有很高的要求;这时的语音信号为宽带语音信号。 绝大多数标准化的语音编码器经略微改动都可以适用于更高的采样频率。问 题的关键在于计算复杂度的增加。例如:基音搜索的范围比8 k h z 采样时增加了 一倍,这将导致3 - - 4 倍的计算开销。因此许多针对宽带语音编码的研究都集中 在如何降低计算的复杂度上。 大多数宽带应用,如:电话会议,要求编码器在处理语音信号的同时,也能 处理偶然出现的音乐信号。低比特宽带语音编码器设计的挑战之一就是在尽可能 保留语音模型的情况下,如何处理其它类型的信号。 1 9 8 6 年,i t u t 制定了一个宽带编码器标准g 7 2 2 1 2 3 1 。它本质上是一个子带 编码器,输入信号被分成低频和高频两个频带,然后分别用a d p c m 进行编码, 速率为6 4 k b s 。2 0 0 2 年,i t u t 又制定了一个新的宽带语音编码标准g 7 2 2 2 1 2 4 , 这是一个自适应多速率的语音编码器,采用c e l p 语音编码模型。 许多具有高保真度的音频编码器都是基于变换域编码方法的。输入信号被映 射到频域,然后根据心理学模型的计算结果,根据感觉相关度对不同的频率区域 分配不同的权值以进行量化。这就是m p e g l ,l a y e r 3 ,即:m p 3 的编码原则。 这种方法的问题在于只能在高比特率的条件下取得好的结果:随着比特率的下 降,性能也不断下降,以致不能满足语音通信的要求。 北京工业大学工学硕士学位论文 近年来,研究人员已经开发出了不同层次的音频参数模型。5 t “。对这些模型 的进一步改进也许可以找到低比特率音频和语音编码的本质。 2 2 2 多讲话者 大多数基于线性预测分析的编码器在设计时都只考虑处理单一声源的情况; 它们的效率来自于所依赖的简单模型。由于模型本身只适用于单一讲话者,当有 几个讲话者同时介入时,编码器的性能变得不可接受,尤其是在这些音源的能量 可比时。这种情况在传统的电话应用中一般不存在,但在电话会议中,几个人可 能同时讲话,这时,问题就变得很突出了。简而言之,这一问题可以被看作是一 个音频编码的问题,这是因为当多人讲话时,信号谱是音乐谱的模拟。这样,如 果编码器能够准确的表示音频信号,那么在多讲话者的条件下应当能够有良好的 性能。因此,这一挑战与音频编码的挑战很相似。 2 2 3 更低的比特率 对于语音编码而言,这是一个显然的目标。近年来在这一领域的研究已经取 得了一系列的进展。目前,在2 k b s 或更低的速率上产生高质量的语音在技术上 是切实可行的。但是,由于其它方面的限制,如:延迟和复杂度的要求,大多数 标准化的编码器的速率都在中速率( 5 一1 5 k b s ) 的范围内。 近来的研究活动开始转向多模式编码。这种编码方式可以在比单模式编码器 速率低的情况下取得相同的语音质量。 一个经常被提及的问题就是语音编码的极限最低速率是多少。从语音的信息 速率来判断,该值大约应该在1 0 0 b s 左右。这一速率很可能是通过语音识别机 制作为编码器,再接一个t t s 系统作为解码器来达到。”。还有学者提出了一种基 于韵律学和语音合成技术的低比特率编码器。作者称该编码器在8 0 0 b s 的速率 下取得了和2 4 k b ,sm e l p 编码器相当的语音质量。但是应该注意到,由于这类 方法固有的高编码延迟,因而很难应用于双向通信的系统中。 1 4 第2 章语音编码概述 2 2 4 客观质量测度 不同编码器的性能比较通常要使用主观测度技术。但这种方法费时费力,而 且花费昂贵,不可重复。很明显,一个可靠的客观质量测度技术应当与主观打分 结果相吻合。已经有几种方法在这一领域取得了成功并被制定为标准。将这些技 术融入到语音编码中将可以对下一代的编码器进行质量评估。 2 2 5 可分层性 一个可分层的编码器的比特流可以使解码器在不同的质量水平上重构合成 语音的不同版本。可分层的编码器的比特流被分成独立的单元,其中一个单元代 表合成语音的核心部分,其它单元作为增强层以改善合成语音的质量。在合成语 音时,核心单元是必不可少的,而其它部分则是可选的。可分层性是i n t e m e t 上 多媒体流通信的一个重要问题。在此环境下,传输延迟通常是未知的并且是根据 网络流量变化的。许多标准化的编码器都可以在有信道损耗的条件下工作,但是 性能很难预测。因此,在这一领域还有很多问题有待解决。 2 3 本章小结 本章是对语音编码技术的概述,首先介绍了语音编码器的分类和各自的特 点,接着介绍了语音编码质量的主观和客观评价方法,最后指出了语音编码技术 未来的研究方向。 第3 章码激励线性预测语音编码算法 第3 章码激励线性预测语音编码算法 八十年代后期出现的码激励线性预测( c e l p ) 语音编码技术是近十年来最 成功的,它用线性预测技术提取声道参数,应用感觉加权技术和波形编码准则去 优化激励信号,即在闭环基础上,从一个具有许多典型激励矢量的码书中寻找主 观失真最小的激励矢量,从而以低于1 6k b s 码率获得高质量的合成语音,现有 的许多语音编码标准都基于这种技术。本章将对c e l p 语音编码算法作一系统性 的介绍。 3 1c e l p 语音编码器原理 在基于合成分析的中低速率语音压缩编码方案中,最普通的语音合成模型为 用码本作为激励源的码激励线性预测( c o d e e x c i t e dl i n e a rp r e d i c t i o n ,简称 c e l p ) 合成模型,如图3 - 1 所示。它是1 9 8 5 年,m r s c h r o e d e r 和b s a t a l 在 i e e e 声学、语音和信号处理年会i c a s s p 8 5 上首次提出的“3 。 随机 激励 s ( n ) ( a ) 合成过程 ( b ) 预测过程 图3 - 1随机激励线性预测模型 合成语音 卜e ( n ) b s a t a l 提出的随机激励线性预测合成模型( 图3 - 1 a ) 的基本思想就是利 用几乎是白的信号激励两个时变的线性递归滤波器,每个滤波器反馈环路上有一 1 北京工业大学工学硕士学位论文 个预测器,其中一个是长时预测器( 或基音预测器) p ( z ) ,用来产生浊音语音的 音调结构( 谱的细致结构) ,另一个是短时预测器f ( z ) ,用来恢复语音的短时谱 包络。随机激励线性预测模型来源
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 达标测试人教版9年级数学上册《圆》达标测试试题(详解版)
- 水泵供水工程施工方案
- 2026届山东省聊城阳谷县联考化学九上期中预测试题含解析
- 培训学校母亲节
- 2026届湖南省娄底市娄星区英语九上期末教学质量检测模拟试题含解析
- 足球培训机构合作
- 2026届北京市海淀中学化学九年级第一学期期末达标检测试题含解析
- 北京延庆县联考2026届英语九年级第一学期期末监测模拟试题含解析
- 2026届重庆市南开中学化学九上期中考试模拟试题含解析
- 湖北省武汉市楚才中学2024-2025学年八年级上学期10月月考物理试题(无答案)
- 贵州贵州贵安发展集团有限公司招聘考试真题2024
- 跨境人民币合同协议
- 三方散伙协议合同协议
- 产程中饮食管理
- 小学生语言文明教育课件
- 出科考核规范
- 日结工资合同(2025年版)
- 免疫定性实验性能验证
- 在线网课学习课堂《人工智能(北理 )》单元测试考核答案
- 第24课《古诗词五首:十五从军征 》课件 2024-2025年统编版语文九年级下册
- 设备质量检测报告模板
评论
0/150
提交评论