(信号与信息处理专业论文)窄带语音质量评价算法研究与实现.pdf_第1页
(信号与信息处理专业论文)窄带语音质量评价算法研究与实现.pdf_第2页
(信号与信息处理专业论文)窄带语音质量评价算法研究与实现.pdf_第3页
(信号与信息处理专业论文)窄带语音质量评价算法研究与实现.pdf_第4页
(信号与信息处理专业论文)窄带语音质量评价算法研究与实现.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 语音质量评价从主体上可分为主观评价和客观评价。主观评价方法是对语音质量的 真实反映,但费时费力,而且受测试条件的限制和测试人员主观因素的影响,重复性和 稳定性较差。因此研制灵活、方便和可靠的语音质量客观评价系统极其重要。 感知语音质量评价p e s q ( p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y ) 是r i x ,b e e r e n d s 等 人于2 0 0 0 年提出,并于2 0 0 1 年成为i t u 的p 8 6 2 标准。与其它流行的算法比较,p e s q 算法既考虑了端到端的时延,又采用了改进的听觉模型等比较先进的技术,很好的处理 了通信延时、环境噪声等对语音质量的影响。本文在a d ib l a c k f i n 5 3 3 硬件平台上实现 了p e s q 语音实时评价功能,并给出了系统的软硬件设计方案及系统工作流程,重点研 究了p e s q 工程在b f 5 3 3 上的实现及优化,基本达到了对窄带语音质量的实时评价效果。 本文主要内容包括:第一章介绍语音质量评价方法的分类及性能比较。第二章介绍 语音质量客观评价方法的早期算法及缺陷,系统的研究了语音质量客观评价方法p e s q 算法,详细说明了该算法的实现过程及优点,并介绍了b l a c k f i n5 3 3 芯片及其开发环境 v i s u a ld s p + + 4 5 ;第三章给出系统的整体设计方案,及软硬件系统组成。第四章重点研 究了p e s q 工程在b f 5 3 3 上的实现及优化,利用硬件平台d s p b f 5 3 3 e z k i tl i t e 实现 p e s q 算法,给出详细的程序优化方法。 关键词:语音质量评价;p e s q ;a d ib l a c k f i n 53 3 ;程序优化 大连理工大学硕士学位论文 r e s e a r c ha n d i m p l e m e n t a t i o no fn a r r o w b a n ds p e e c hq u a l i t y m e a s u r e m e n ta l g o r i t h m a b s t r a c t f r o mt h em a i na s s e s s m e n t ,s p e e c hq u a l i t ya s s e s s m e n tc a nb ed i v i d e di n t os u b _ j e c t i v ea n d o b j e c t i v ea s s e s s m e n t s u b j e c t i v ea s s e s s m e n ti st h er e a lr e f l e c t i o no ns p e e c hq u a l i t y , b u tt h i s m e t h o di st i m e c o n s u m i n g ,e x p e n s i v ea n dc a nn o tb ee f f e c t i v e l yr e p e a t e d t od e v e l o pas p e e c h o b j e c t i v ee v a l u a t i o ns y s t e m ,w h i c hi sf l e x i b l e ,c o n v e n i e n ta n dr e l i a b l e ,i se s s e n t i a l p e s q ( p e r c e p t u a le v a l u a t i o n o fs p e e c hq u a l i t y ) a l g o r i t h mi sp u tf o r w a r db yr i x , b e e r e n d sa n de t ci n2 0 0 0 ,w h i c hb e c o m e si t u tr e c o m m e n d a t i o np 8 6 2 c o m p a r e dt oo t h e r a l g o r i t h m s ,i tt a k e st h ee n d t o e n dd e l a yi n t oc o n s i d e r a t i o n ,w h i c hc a ne v a l u a t ek i n d so f n e t w o r k s i ta l s oa d o p t si m p r o v e da c o u s t i c a la n da d v a n c e dt e c h n o l o g y w h i c hi sr o b u s tt ot h e c o m m t m i c a t i o nd e l a ya n dn o i s eo fe n v i r o m n e n ta n di st o t a l l ys u i t a b l ef o rt h ec o m m u n i c a t i o n s y s t e m t h ep a p e rp r o p o s e sap e s qs y s t e mb a s e do na d ib l a c k f i n 5 3 3 t h ea l g o r i t h ma n d c o d e sa r eo p t i m i z e dt oa c h i e v ea s s e s s m e n tf o rn a r r o w b a n ds p e e c hq u a l i t yi nr e a lt i m e t h em a i nw o r ko ft h i st h e s i si n c l u d e st h ef o l l o w i n gp a r t s :t h ef i r s tc h a p t e ri n t r o d u c e st h e d i f f e r e n tm e t h o d sa n dp e r f o r m a n c eo fs p e e c hq u a l i t ya s s e s s m e n t t h es e c o n dc h a p t e r i n t r o d u c e st h ee a r l i e rm o d e l sa n dt h ew e a k n e s so fo b j e c t i v ea s s e s s m e n t ,a tt h es a m et i m e ,t h e p o p u l a ra p p l i e ds p e e c ho b j e c t i v ea s s e s s m e n tm o d e l - p e s qi sa n a l y z e di nd e t a i l ,t h e ni tm a k e s a ni n t r o d u c t i o nt ot h ed s pc h i p b l a c k f i n5 3 3a n dt h ed e v e l o p m e n te n v i r o n m e n t v i s u a l d s p + + 4 5 t h et h i r dc h a p t e rp r o p o s e st h es c h e m eo fs o f t w a r ea n dh a r d w a r ed e s i g na sw e l la s s y s t e ms t r u c t u r e t h el a s tc h a p t e rf o c u s e so nt h ei m p l e m e n to fp e s qa r i t h m e t i cb a s e do nt h e h a r d w a r ep l a t f o n no fd s p b f 5 3 3 e z k i tl i t e t h ea l g o r i t h ma n dc o d e sa r eo p t i m i z e da n d o p t i m i z a t i o nm e t h o d sa r eg i x f e ni nd e t a i l k e yw o r d s :s p e e c hq u a l i t ya s s e s s m e n t ;p e s qb l a c k f i n 5 3 3 ;o p t i m i z a t i o n 1 1 1 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:窒鲎适童厦量迁俭簋洼盈究复塞麴 一 作者签名- 艺痃逸 日期:丝2 年生月2 三日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文遮目:盔垒盗耋垒垒垒! 刍兰兰竺兰竺兰 作者签名_ 一兰盔鱼 日期:兰z 年丛月三l 日 导师签名 大连理工大学硕士学位论文 第一章绪论弟一早珀下匕 1 1 应用背景 语音质量评价【l 】不但与语音学、语言学、信号处理等学科有关,还与心理学、生理 学等学科有着密切关系,因此,语音质量评价是一个交叉学科的复杂问题。从主体上讲, 可以分为两大类:主观评价和客观评价【2 - 3 1 。主观评价是以人为主体来评价语音的质量, 由于人是语音信号的接受者,故主观评价结果是对语音质量最真实的反应。客观评价是 指用机器自动判别语音质量,不受条件限制和人的主观因素影响。客观评价的目的不是 要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便又能准确预测主观 评价结果的语音质量测量手段。 1 2 语音质量主客观评价方法简介 评价语音通信系统性能优劣的指标包括语音质量、端到端时延、回声、静音压缩等。 其中最为人们所关心的是语音质量,它受许多因素影响,如模数转换、语音编解码、时 延抖动、包丢失、噪声等,这使得语音质量评价十分复杂,但也是最有意义的。 1 2 1 主观评价方法 主观语音评价是以人为主体根据某种预先约定的规则来对失真语音( 或参考原始语 音) 划分质量等级的,它反映了评听者对语音质量好坏程度的主观印象。目前,国内外 使用较多的语音质量主观评价方法有:平均意见分m o s ( m e a no p i n i o ns c o r e s ) 1 4 】、判断 韵字测试d r t ( d i a g n o s t i cr h y m et e s t ) 、失真平均意见分d m o s ( d e g r a d a t i o nm e a n o p i n i o ns c o r e s ) 和判断满意度测量d a m ( d i a g n o s t i ca c c e p t a b i l i t y ) 。其中m o s 方法在国 内外使用最为普遍,它不仅广泛用于语音编码、通信设备性能测试上,也是语音质量客 观评价方法研究中作为衡量客观评价方法好坏的重要依据之一。 表1 1m o s 评分的五级标准 t a b l e1 1f i v e - l e v e ls t a n d a r df o rm o s 等级质量级别 失真级别 5 优不察觉 4 良刚有察觉 3中 有察觉,但稍觉可厌 2 差 明显察觉,可厌仍可忍受 1 劣不可忍受 窄带语音质量评价算法研究与实现 在i t u t 的p 8 0 0 建议和p 8 3 0 建议中对m o s 方法有详细定义,其评价过程是: 组织一定数量的听众对音频设备或通信网络的输出声音进行试听,与原始声音进行比 较,然后分优、良、中、差、劣五个级别进行打分,最后得到一个平均意见分m o s 。 由于主客观方面的各种原因,每次测试得到的m o s 分会有一定程度的波动,为了减少 波动的方差,要求参加测试的评听人员要足够多( 一般至少4 0 人) ,所测语音材料要足 够丰富,测试环境要尽量保持相同。 m o s 方法的优点是:一是可以方便比较不同失真类型的编码系统;二是评测者只 需提先进行简单训练,就可直接参与评测,容易完成。其缺点是:一是不能指出失真的 原因,不利于算法或通信系统的改进;二是评价结果的可靠性受到各种测试条件和测试 人员主客观因素的影响较大。 1 2 2 客观评价方法 客观评价是由机器计算语音特定的参数来表征语音通过编码器或通信系统后的失 真程度,并以此来评估处理系统的性能优劣。 从评估原理来分,客观评价可分为两类:基于输入一输出方式的客观评价和基于输 出方式的客观评价。基于输入一输出方式的评价是建立在原始语音信号和失真语音信号 的误差对比上,这种方式的客观评价大多数采用数值距离或者听觉模型来量化语音质量 的好坏。随着技术的发展,基于输入一输出方式的评价方法已满足不了如在无线移动通 信、航天航海及军事等领域的实际需求,故要求客观评价方法具有较高的灵活性,在得 不到原始语音的情况下,也能够对输出的语音进行评价。因此,近年来基于输出方式的 客观评价方法也得到了国内外专家的重视。 本文研究的p e s q 算法使用了动态的时间对齐模块,改进的听觉模型和认知模型技 术,对通信延时、环境噪声等有较好的鲁棒性。它是基于听觉模型的评价方法中与主观 相关度最高的一个评价方法,第二章将详细分析其算法实现过程。 1 3 论文工作及结构 本文研究了基于p e s q 算法的语音质量客观评价方法,在详细分析算法的基础上, 给出一种语音质量客观评价系统的设计方案,旨在对语音编解码器或通信网络进行灵活 简便的性能评价。该方案以a d i 公司生产的硬件平台a d s p b f 5 3 3 e z k i tl i t e 为核心, 包括语音采集模块和人机交互模块。论文详细分析了p e s q 算法,并给出了基于b f 5 3 3 的p e s q 算法的软硬件实现和程序优化方法。 大连理工大学硕士学位论文 第二章p z s q 语音质量客观评价算法及b f 5 3 3 简介 2 1 声学感知原理 人类的听觉系统具有很强的声音处理能力,对各种语音及背景声音都能很好的分 辨、感受及认知。近几十年来,人类听觉系统的性能与特性研究成为语音研究的一大热 点,并已经在语音处理的各个方面取得很大突破。在语音评价方面,由于语音最终是由 人来感知的,所以听觉模型在语音质量评价的研究中尤为关键。 ( 1 ) 语音听觉器官的构造1 5 j 人的听觉器官包括三部分:外耳、中耳和内耳。外耳是听觉器官的第一层,由耳廓、 耳道和鼓膜组成。中耳是鼓膜后的一个骨腔,由三块听小骨组成,即:锤骨钻股和橙骨, 它们构成了从鼓膜到内耳之间的机械链。内耳由半规管、前庭窗和耳蜗三部分组成,其 中对听觉起主要作用的是耳蜗。首先声波引起外耳腔空气振动,然后由鼓膜经由三块听 小骨将放大的声波传到内耳的前庭窗,耳蜗的中间和外面包着前庭膜和基底膜,基底膜 上附有数以万计的纤毛细胞,纤毛细胞把接收到的机械振动转化为神经活动,由听觉神 经传到大脑。 ( 2 ) 听觉特性【6 j 由于语音最终由人来感知,所以研究人耳的听觉特性对于研究语音质量客观评价有 重要意义。人耳听觉系统能够感知的声音频率范围为2 0 h z 2 0 k h z ,且入耳对各频率的 灵敏度是不同的,是受声强影响的,对太强或者太弱的声音的频率分辨率会降低。在 2 k h z 4 k h z 频段内,人耳对声音的分辨率最高,很低的电平就可以被听到,而在其它频 段,相对高一点的电平才能被听到。人耳对声音还具有掩蔽效应,即一个声音的听觉感 受受另一个声音的影响。目前人们对人耳的听觉特性已经有了较深入的认识,下面从三 方面来详细介绍人耳的听觉特性。 响度 在物理上,客观测量声音的强弱单位是声压或声强。在心理上,主观感觉声音强弱 程度使用响度来表示。一般来说,当声音频率一定时,声强越强,则响度越大。但是, 响度也与频率有关,相同的声强,频率不同时响度也可能不同。当声音的强弱小到人的 耳朵刚刚可以听见时,称为“听阈”。如果加大声音的强度,使它达到人的耳朵感到疼 痛时,这个阈值称为“痛阈”。 窄带语音质量评价算法研究与实现 响度的单位是“宋 ( s o n e ) ,定义频率为l k h z 、在听阈之上4 0 d b 的纯音所具有的 响度为l s o n e 。响度也可以象声强那样用相对值表示,这就是响度级,响度级的单位为 “方”( p h o n ) 。响度s 和响度级p 之间的关系用式( 2 1 ) 表示: s = 2 ( p 枷) 1 0( 2 1 ) 音高 物理上用频率来表示声音的音调,而人主观感觉音调是个心理过程,用音调来表示, 其单位是美尔( m e l ) 。音高与声音的频率并不成正比关系,它还与声音的强度和波形有 关系。响度级为4 0 p h o n 、频率为1 0 0 0 h z 的声音的音高定为1 0 0 0 m e l 。m e l 和h z 的转 换关系可用式( 2 2 ) 近似表示: = 3 3 2 2 2 3l o g ( 1 + 0 0 0 1 如) ( 2 2 ) 差阈也是一种对声强和频率的主观闽值。差阈的含义是最小可分辨差异d ( j u s t n o t i c e a b l ed i f f e r e n c e ) 。在频率不变的条件下可觉察最小强度变化就称为响度差阈,在 声强级不变条件下可觉察的最小强度变化就称为音高差阈。差阈反映了入耳的听辨能 力。 掩蔽效应 一个声音的听觉感受者受到同时听到的另一个声音的影响,这种现象称为掩蔽效 应。此时前者称为被掩蔽音,后者称为掩蔽音。被掩蔽音刚能听到时掩蔽音的强度成为 掩蔽阂限。 人耳的时域掩蔽效应分为三类。一是后向掩蔽效应,在时间上有后向影响的效果。 在掩蔽信号开始之前,人耳对测试信号的听觉门限已经提高,也就是一个声音影响了在 时间上先于它的声音的听觉能力。这是由于人耳对声音的感觉不是瞬态的,而是一段时 间内对声音效果的积累。二是同时掩蔽效应,即在一定时间内一个声音对另一个声音同 时发生了掩蔽效应。三是前向掩蔽,即一个声音信号虽然已经结束,但它对另一个声音 的听觉能力还有影响。 人耳的频域掩蔽效应可分为纯音对纯音的掩蔽和噪声对纯音的掩蔽。纯音对纯音的 掩蔽表现在两个方面:一是对于中等掩蔽强度来说,纯音最有效的掩蔽出现在其频率附 近;二是低频的纯音可以有效地掩蔽高频的纯音,而高频的纯音对于低频的纯音的掩蔽 作用很小i 另外噪声也会对纯音产生掩蔽效应。实际中用临界带宽来描述这种掩蔽效果, 一个纯音可以被认为以它的中心频率并且有一定频率带宽的连续噪声所掩蔽,如果这一 频带内噪声的功率等于该纯音的功率,那么该纯音处于刚被听到的临界带宽。这个概念 在基于频域的语音质量评价中得到了广泛应用。 大连理工大学硕士学位论文 一个临界带宽【7 】单位用b a r k 来表示,如表2 1 所示,在2 0 h z 到1 6 k h z 范围内的声 音可以分为2 4 个频率群,也称为为b a r k 。临界带宽z ( b a r k ) 和f ( h z ) 之间的关系可以用 式( 2 3 ) 近似表示: z 掣一0 5 3 ( 2 3 ) 1 9 6 0 - t - 厂 。 表2 1 临界带宽 t a b l e2 1 c r i t i c a lb a n d 编号 中心频频率范围带宽编号中心频频率范围带宽 ( b a r k ) 率( h z )( h z ) ( h z )( b a r k ) 率( h z ) ( h z ) ( h z ) 15 02 0 1 0 08 01 3 1 8 5 0 17 2 0 2 0 0 0 2 8 0 2 1 5 01 0 0 2 0 01 0 01 42 1 5 02 0 0 0 2 3 2 03 2 0 32 5 02 0 0 3 0 01 0 01 5 2 5 0 0 2 3 2 0 2 7 0 0 3 8 0 4 3 5 03 0 0 4 0 01 0 01 62 9 0 02 7 0 0 3 1 5 04 5 0 54 5 0 4 0 0 - 5 1 0 11 0 1 73 4 0 03 1 5 0 3 7 0 05 5 0 65 7 05 1 0 6 3 01 2 01 84 0 0 037 0 0 - 4 4 0 07 0 0 7 7 0 06 3 0 - 7 7 01 4 01 94 8 0 04 4 0 0 - 5 30 09 0 0 88 4 07 7 0 - 9 2 01 5 02 05 8 0 05 3 0 0 6 4 0 0l1 0 0 91 0 0 09 2 0 - 1 0 8 01 6 02 17 0 0 06 4 0 0 - 7 7 0 01 3 0 0 1 01 1 7 01 0 8 0 - 1 2 7 01 9 02 28 5 0 07 7 0 0 - 9 5 0 01 8 0 0 1 1】3 7 0】2 7 0 - 1 4 8 02 】02 31 0 5 0 09 5 0 0 - 1 2 0 0 02 5 0 0 1 21 6 0 01 4 8 0 1 7 2 02 4 02 41 3 5 0 01 2 0 0 0 1 5 0 0 03 5 0 0 2 2 早期算法简介 基于听觉模型的语音质量客观评价方法有很多是过度算法,并没有得到广泛应用。 目前比较成熟的算法有:p s q m 、m n b 、p a m s 、p e a q 和p e s q 等。 ( i ) p s q m 算法f 3 】 感知语音质量测量( p s q m ,p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e ) 模型最初由 j g b e e r e n d s 和j a s t e m e r d i n k 于1 9 9 4 年提出,此方法相比之前的各种客观评价方法具 有对主观质量更精确的估计。1 9 9 6 年8 月,i t u t 将其发展为p 8 6 1 建议,该建议是i t u 第一个语音质量客观评价标准,用于测量电话频段( 3 0 0 3 4 0 0 h z ) 语音编解码器的客观质 量。 窄带语音质量评价算法研究与实现 i n p u t - 一 , 感知模型- 模霎曩出 1r 预 被测系统处 听觉距离l 一认知模型 理 t t 嗣参,b 1 士学j 冉i 模型输出 i o u t p u t 1r r 野刘俣坐 参数 主观属性 图2 ip s q m 模型结构 f i g u r e2 1 t h es t r u c t u r eo fp s q mm o d e l p s q m 模型首先将输入输出信号分帧,并变换到频域计算功率谱密度,再根据人耳 的感知特性计算出b a r k 谱密度,最终映射成人耳可以分辨的响度密度,通过认知模型 产生噪声干扰,进而计算出p s q m 得分,并用此分值来表征感受到的语音质量。p s q m 算法的框图如图2 1 。p s q m 引入了认知模型来描述参考语音信号与失真语音信号在听 觉变换过程中产生的干扰差,通过使用对称和不对称语音信号不同部分的不同加权,从 而改进了客观评估分值与m o s 分值的相关性。 p s q m 算法要求待测信号有以下特点: 输入输出信号在输入模型前是时间同步的。 输出信号相对输入信号没有传输比特误码、帧丢失或信元丢失等信道影响。 语音源是“干净的 ,即在发送端没有加入环境噪声。 待测语音不满足以上要求中任一点,都会严重影响到最终评估分值,导致跟主观 m o s 分误差较大。 ( 2 ) a d m n b 算法 1 9 9 8 年,i t u t 将测量归一化块( m n b ,m e a s u r i n gn o r m a l i z i n gb l o c k ) 算法作为附 件加入到p 8 6 1 中,来改善当信道中存在诸如传输比特误码、帧丢失或信元丢失等失真 时,p s q m 算法性能较差的问题,图2 2 给出了a d m n b 的算法框图。 大连理工大学硕士学位论文 图2 2m n b 模型框图 f i g u r e2 2 t h es t r u c t u r eo fm n bm o d e l 该算法对语音的评价包括两个方面,一个是收听过程,另一个是判断过程。之前的 方法比较侧重于模拟人的收听过程( 听觉模型) ,判断过程则被简化。a d m n b 方法在考 虑听觉过程的基础上,采用m n b 结构来模拟人的判断过程,通过求出听觉距离 a d ( a u d i t o r yd i s t a n c e ) ,将其对数转换后映射到一个有限的范围内,产生最终的模型输 出l ( a d ) 。 ( 3 ) p a m s 算法例 感知分析测试系统( p a m s ,p e r c e p t u a la n a l y s i sm e a s u r e m e n ts y s t e m ) 是以h o l l i e r 提出的模型为基础的。h o l l i e r 通过组合一系列用于谱分析的线性滤波器,不仅考虑了 失真的大小还考虑失真的分布,扩展了巴克谱失真模型。p a m s 用于测量电话网络的 语音质量,是第一个实现端到端语音质量测量的模型,也可以用于评估语音编解码器。 图2 3 给出其算法框图。 输入信号 待测系统 输出信号 时 间 对 齐 及 补 偿 声学模型卜叫听觉变换 误差参数计算 声学模型卜叫听觉变换 图2 3p a m s 算法框图 f i g u r e2 3 t h es t r u c t u r eo fp a m sm o d e l 感知 萨映射i 窄带语音质量评价算法研究与实现 模型首先将输入语音信号和输出语音信号划分为语句,计算时延,进行时间对齐。 将对齐后的信号进行听觉变换,计算一系列误差参数,从而对不同类型的失真进行测量。 对这些误差在时间上取平均,然后通过一个非线性函数映射得到质量评价分。 2 3 早期算法缺陷 与普通电话网相比,v o l p 电话网【io 】采用语音压缩编码算法,将话音用数据包的形 式在分组交换网上传输。因此,其对传输线路的时空利用率都有大幅度的提高。但现代 分组电话也遇到了传统电话所没有的语音质量问题,如传输语音畸变和频繁的断话现 象。引起这些问题的主要原因是v o i p 网络的延时、丢包、沿切割和抖动等问题,其中 延时问题最明显,早期模型不能很好的解决这些问题。 ( 1 ) 可变延时 产生可变延时的原因 v o l p 网络中采用分组交换实时地传输语音和数据。在基于分组的传输中,语音被 编码算法编码并分割成独立的数据包。这些数据包通过网络传送到接收端,在接收端进 行重组、解码,还原成语音流。由于用来传输数据包的路由不同,导致这些数据包可能 会以不同的顺序到达接收端,而且还会产生丢包。导致每个包的时延大小不同,p e s q 模型考虑了这种情况,将系统的延迟考虑为分段常量延迟。此外,在v o l p 网络中,语 音编码大多采用参数编码方式,例如i t u t 的g 7 2 9 和g 7 2 3 1 算法。这些算法本身就 存在着算法延时。 可变延迟对感知模型的影响 早期模型的听觉转换都是先用加窗f f t 得到谱估计,接着把频谱映射到感知频域和 响度刻度。通过帧到帧的比较信号,提取出残差参数。然而,对参考信号和失真信号加 窗并进行f f t 变换时,加窗会对信号产生人为的作用。语音信号具有时变特性。如果参 考信号和失真信号的时间对齐产生错误,即使仅是帧长的一小部分,也会导致所测残差 信号误差很大。实验证明,一个2 0 m s 的延迟变化,足够导致p s q m 的质量下降大约 1 m o s ;而m n b 模型更加敏感,5 m s 的延迟变化就能够导致1 m o s 分的下降。 ( 2 ) 线性滤波 典型电话网络组件的频率相应 电话网的许多模块引入了线性滤波,比如在话路的二线接口处,甚至在语音编码器 中。为了对端到端评价中的线性滤波幅度特性有个概念,图2 4 显示了两种典型网络构 件的频率响应。图2 4 ( a ) 给出了修改后的i r s 发送特性,即从嘴到通用电话手柄结合处 大连理工大学硕士学位论文 的频率响应。图2 4 ( b ) 给出了具有2 线接口的电话连接测试设备的频率响应。这些频率 响应非常典型,在3 0 0 3 4 0 0 h z 通带内的增益变化在l o d b 范围内。 图2 4电话网络组件的频率响应 f i g u r e2 4f r e q u e n c yr e s p o n s eo f t e l e p h o n en e t w o r kc o m p o n e n t s 线性滤波对感知模型的影响 现代通信网的许多模块都用到了大量的线性滤波器。尽管收听者能够感受到线性滤 波器的一些效果,但是与非线性编码失真相比,其影响非常小。早期模型像b s d 、p s q m 、 m n b 并没有对此作区别,因此仅由线性滤波就会测出大量的残差,这就要求用于端到 端语音质量评价的感知模型要提供较小的线性失真才能获得满意的效果。这可以通过均 衡参考信号与失真信号达到。常规的线性函数均衡技术是不能使用的,因为它对低速率 语音编码器不稳定。采用部分补偿的方法可以较好的降低滤波效果的影响,使其中一小 部分能够被感知模型测得,这种方法已经被应用到p s q m 和p e s q 模型中。p e a q 则使 用全部补偿,由此产生的线性失真作为一部分算入到最终的主观m o s 分的回归分析中。 ( 3 ) 可变增益 有时语音要经过低频振幅调制,这个过程一般伴随着自动增益控制( a g c ) ,a g c 能够动态地调整语音到一个标准电平级上。它的目的是消除用户设备可变损耗或不同国 家网络间传输幅度级变换产生的影响。然而,在语音质量评价中,有时会因为背景噪声 和正常声音变化产生不希望出现的增益变化。因为语音是时变的,在连续情况下,达 1 0 d b 的增益变化也不会令人反感。因此,对于基于内部响度表示比较的语音感知模型, 跟踪和增益均衡是十分必要的,否则即使是人耳听不到的失真也会导致m o s 分值下降 较大。早期m n b 模型根本没有考虑可变增益的影响,p a m s 模型只有当增益变化发生 在语音静默期时才对其计算并消除,而对于发生在活动期的增益变化只进行测量。p e s q 窄带语音质量评价算法研究与实现 模型沿用p s q m 模型中的方法,能够自适应的跟踪帧到帧的包络变化,并且经过一段时 间会检测到由增益变化引起的残差,从而消除增益变化的影响。 2 4p e s q 算法原理分析 2 0 0 1 年2 月,i t u t 推出了最新的p 8 6 2 标准“窄带电话网络端到端语音质量和语 音编解码器质量的客观评价方法”,该标准使用感知语音质量评价p e s q j 算法。与其 它流行的算法比较,如p s q m ( p 8 6 1 标准,没有考虑端到端的时延) 和p a m s ( 英国电信 b t 提出的_ 个算法,考虑了端到端的时延,但是效果不如p e s q 算法) ,p e s q 算法既 考虑了端到端的时延,可以评估不同类型的网络,又采用了改进的听觉模型等比较先进 的技术,对通信延时、环境噪声等有较好的鲁棒性,完全符合系统要求。在综合比较之 后,最终采用了p e s q 算法作为系统的评估算法。 如图2 5 所示,p e s q 算法将参考信号和失真信号经过电平调整、输入滤波器滤波、 时间对齐、听觉变换之后,分别提取了两路信号的参数,综合其时频特性,得到p e s q 分数,最终将这个分数映射到主观平均意见分( m o s ) 。 图2 5p e s q 模型框图 f i g u r e2 5 t h es t r u c t u r eo fp e s qm o d e l ( 1 ) 电平调整和m i r s 滤波【1 2 】 由于不同语音系统增益差别较大,当原始语音信号经过了语音系统之后,信g - o g 习z 发生了改变,为了便于比较,p e s q 算法将两者调整到统一恒定的电平,这个电平对应 于在主观测试中通常所采用的听觉级( l i s t e n i n gl e v e l ) 。 大连理工大学硕士学位论文 p e s q 中使用了m i r s ( m o d i f i e di n t e r m e d i a t er e f e r e n c es y s t e m ) 滤波器,模拟和补偿 电话手柄以及网络所造成的滤波效应。该滤波特性充分考虑了原始语音信号的特性,得 到的语音信号可以作为电话终端输出再反馈到网络中去。 ( 2 ) 时间对齐 p e s q 算法相对早期模型较大改进的地方是时间对齐算法,该算法采用基于包络互 相关的粗糙延时估计和基于帧到帧的加权直方图精细延迟估计相结合的方式。其算法框 图如图2 6 所示。 图2 6p e s q 模型时间对齐模块 f i g u r e2 6 t i m ea l i g n m e n ti np e s qm o d e l 时间对齐过程的步骤; 信号通过窄带滤波,突出人耳敏感的部分,滤波后的信号只用于时间对准; 基于包络的粗延时估计,以4 m s 为一个时间段,每个时间段取均方值,话音中的 弱音设为一个很小的值,长时弱音置0 ,最后取为对数; 窄带语音质量评价算法研究与实现 把参考信号按话语分成段; 对每一段再进行基于包络的粗延时估计; 对每一段话语进行帧到帧的加权直方图精细延迟估计; 对于说话中的延时改变重新进行语句分解和定位。 ( 3 ) 听觉变换 听觉变换是一个生理声学模型,它将语音映射到时频域中。人耳对外界声音信号的 听觉感受,主要取决于音高、响度和掩蔽效应等因素。为了模拟人耳的听觉特性,引入 临界带宽的概念,其单位是b a r k ,1 b a r k 用来指明一个临界频带的频率宽度。以b a r k 为单位的频率刻度要比以赫兹为单位的频率刻度更好,因为在一个临界频带内,人耳的 很多听觉特性是一样的,比如掩蔽效应。因此,可以将人耳看作是一个并联的滤波器组, 每个滤波器组有不同的带宽,对听觉有不同的贡献,结合各子带的掩蔽效应和晌度与频 率的关系,从而求出各个临界频带的失真分布。p e s q 临界频带的划分见表2 1 。听觉变 换的具体实现步骤如下。 巴克谱:对于输入信号和输出信号,在长3 2 m s 的帧上加h a r m i n g 窗,然后进行短 时f f t 变换,相邻帧重叠5 0 ,进而计算频域功率谱p x w i r s s o ) n 和p y w i r s s ( ) n 。再 用以下的公式将频率上的功率谱转换到b a r k 尺度上的谱密度p p x w i r s s 瓴) n 和 p p y r v f r s s 仍) n 。 ( n 划p 老面专丽。磊,( m q 4 胛k ( n 娟,誓。而专丽。磊,p r 胛x , , s ( f j ) , q 5 频率均衡:计算有效话音帧的平均巴克谱值。通过参考话音和失真话音间的比率给 出传输函数估计。参考话音使用传输函数估计值补偿到和失真话音相当,补偿的绝对值 最多不超过2 0 d b 。 增益变化均衡:参考信号和失真信号的可昕功率之间的比值用于标识增益变化。此 比值通过一阶低通滤波器滤波,失真信号乘以这个功率比,补偿到和参考信号相当。增 益补偿后的失真信号b a r k 谱密度为p p y w 1 r s s ( ) 。 j l p p x jg r i r s s ( 、f | 、n =即( 乃) 。 j ,n = 1 n ( 2 6 ) 大连理工大学硕士学位论文 p p y w r s s ( 厂) 。= s 。p p 髑( 厂) 。 ( 2 7 ) 响度映射:通过一个与频率相关的听觉门限和指数变换,将巴克谱映射到响度级 ( 宋) ,在每一时频单元给出感受到的晌度。 = 文爿 ( o 5 + o 5 等笋 ,1 川n 书 ( o 5 + o 5 纠一t ( 2 8 ) ( 2 9 ) ( 4 ) 扰动处理和认知模型【1 3 1 p e s q 模型采用了改进的认知模型技术,它比p s q m 算法的认知模型要复杂,这也 是p e s q 算法性能卓越的一个重要原因。 p e s q 计算干扰密度时采用了比p s q m 更复杂的方法。 首先计算两路语音信号响度密度的带符号差,阴行。当差值为正时,失真信号引 入一些分量,比如噪声:当差值为负时,失真信号损失一些分量。这个差值称为原始干 扰密度。考虑到人耳的掩蔽效应,需要对每个时频分量进行掩蔽处理得到干扰密度d 阴。 首先对原始信号和失真信号的每个时频分量,计算出每对时频分量的响度密度较小 者,乘以0 2 5 ,将其结果作为掩蔽闽值,形成掩蔽序列蛳】仃。 d 门。= l y j 。一l x j 。 ( 2 1 0 ) 1 柳l = m i n ( l x j 。,l y j 。) ( 2 1 1 ) 接着,对每个时频分量运用如下规则进行处理: 如果原始干扰密度为正值并且大于掩蔽值,则干扰度等于原始干扰度减去这个掩 蔽值。 如果原始干扰密度的幅度介于掩蔽值的正负值之间时,则干扰度为零。 如果原始干扰密度为负且比掩蔽值负值更负,则干扰度等于原始干扰度加上这个 掩蔽值。 经过上述处理,使原始干扰密度的值向绝对值减小的方向移动了掩蔽门限大小的一 段距离,从而得到干扰度密度的时间和频率的函数,即d 阴行。该规则模拟了当某个时频 分量中有强信号时,具有较小干扰度的失真是听不到的,即强信号掩蔽了失真,使收听 者不能感知到它的存在。 窄带语音质量评价算法研究与实现 主观测试表明,当信号中引入一个新的时频分量时,其主观得分要比信号中丢失一 个时频分量更低。因为当编码器或传输系统的输入信号引入一个新的时频分量时,这个 新的分量和输入信号混为一体,使输出信号分解为两个不同的知觉对象,即输入信号和 失真,这将导致能听到明显的失真。然而,当损失一个时频分量时,输出信号不能按同 图2 7p e s q 感知模型概述计算帧干扰度 f i g u r e 2 7o v e r v i e wo f t h ep e r c e p t u a lm o d e l u s e di np e s q - c o m p u t i o nf r a m ed i s t u r b a n c e 大连理工大学硕士学位论文 样方式分解,失真也变得不太明显,这种不对称现象在静音期表现的更加明显。通过给 每帧的干扰密度d 哪行,乘以一个非对称因子得到非对称干扰密度d a 阴疗,来模拟非对称 效应。该非对称因子为失真信号和参考信号b a r k 谱密度比值的1 2 次幂,若非对称因子 小于3 ,定为o ;若大于1 2 ,则定为1 2 。 使用不同的厶范数,对干扰密度d 们疗和非对称干扰密度d a 阴疗在b a r k 域上取平均, 得到帧干扰度仇和非对称帧干扰度d a 仃。设m 为临界带宽的个数,则: d 。= m 。( 1 d 儿i w j ) 户 ( 2 1 2 ) v j = l m d a 。= m 。( | d 【儿卜w j ) ( 2 1 3 ) = 1 m 其中,m n 是乘因子,其值与该帧功率有关,叨是一系列和修正b a r k 频带组宽度 成比例的常量。 在少数情况下,时间对齐模块可能没有正确的确定延时变化,这样由于错误的延时 估计导致较大的计算误差。p e s q 算法考虑了这种情况,把干扰度超过设定阈值的帧称 为坏帧。如果在一段连续帧中有一帧的干扰度超过设定的阈值,则称为坏区间。p e s q 算法确定出每个坏区间的范围与坏区间的个数,重新计算坏区间内参考信号和失真信号 的最大互相关,对坏区间估计一个新的延时。并且,当该最大互相关小于设定的阈值时 认为该区间是噪声对噪声,该区间不再称为坏区间,停止对其进行重对齐处理。否则, 要重新计算坏区间帧的帧干扰度。如果所得帧干扰度更小,则用它代替原来的干扰度。 最终得到d 和d a 么来计算总的感知语音质量。 和正常的时域平均,即一阶范数三,相比,p 阶范数印加权强调了响度高的干扰度, 这使得客观得分和主观得分相关性更好。p 阶范数定义为: ,1 n 、_ = 1 0 = i 寺( 或) pi ( 2 1 4 ) k 川n m 其中为帧的总数,矿1 0 ,既是干扰度。帧干扰度和非对称称帧于扰度的时域平 均分两级实现,即求瞬态间隔内的干扰总计和话音持续时间内的干扰总计。瞬态间隔内 的干扰总计采用高阶范数,话音持续时间内的干扰总计采用低阶范数。原因是当某一段 间隔区间的计算出现误差时,其他间隔区间的计算不受到影响。 最终,p e s q 算法客观评价得分是平均对称干扰度d s r u 和平均非对称干扰度c l a s r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论