(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf_第1页
(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf_第2页
(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf_第3页
(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf_第4页
(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(通信与信息系统专业论文)amr网络语音流的包层质量评估方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 iiyiiiilll2111110111111161111171111112111113t11111411111y 2 0 6 7 2 3 4 随着无线宽带的普及和网络的发展,网络语音应用已逐渐渗透到生活的各个 领域。为保证良好的语音服务质量,需要在网络节点对语音质量进行实时监测。 由于网络节点的性能有限,处理的业务量较大,需采用一种低复杂度的算法进行 实时评估。而包层评估模型仅允许使用数据包的头部信息,计算复杂度低,因此 适合于网络节点处的码流质量监测。 本文研究包层的无参考语音质量评估模型,针对于a m r w b + 编码标准,提 出了包层的质量评估框架。首先通过分析语音数据包的头部信息获取码流的编码 速率、丢包数目及丢包位置等信息来预测语音质量,然后通过实验确定各编码速 率对应的压缩失真,重点研究丢包对语音流质量的影响。本文针对丢包采用不同 的处理方式,建立了四种包层的语音质量评估模型。首先采用丢包率来衡量丢包 对语音质量的影响,研究丢包率和压缩失真与语音质量的关系,并建立基于丢包 率的语音质量评估模型。由于静音帧丢失不影响语音质量,研究语音丢包率、压 缩失真和语音质量的关系,进而构建基于语音丢包率的语音质量评估模型。考虑 到丢包模式对语音质量的不同影响,分析突发密度、突发段的个数和突发比例三 个参数与突发程度的关系,提出丢包突发性测量参数,进而建立考虑突发丢包性 的语音质量评估模型。最后,在以上三种模型的基础上,根据单帧与语音序列的 关系,采用两级m i n k o w s k i 法反映丢包位置对语音质量的影响,提出基于时域联 合的语音质量评估模型。实验结果表明,四种模型都具有较好的性能,且基于时 域联合的模型得到的客观分值与主观分值的一致性最好。 关键词:包层的语音质量评估压缩失真网络丢包丢包内容检测算法丢包突发 性测量时域联合 a m p 网络语音流的包层质量评估方法 a b s t r a c t a b s t r a c t w i t ht h ep o p u l a r i t yo fw i r e l e s sb r o a d b a n da n dt h ed e v e l o p m e n to ft h en e t w o r k , v o i c e a p p l i c a t i o n sh a v eg r a d u a l l yp e n e t r a t e di n t oo u rd a i l yl i f e t om e e tt h ec u s t o m e r s r e q u i r e m e n t sf o rv o i c eq u a l i t y ,i ti sn e c e s s a r yt om o n i t o rt h eq u a l i t yo fn e t w o r k e d s p e e c hs t r e a m si nr e a l - t i m ea tn e t w o r kn o d e s d u et ot h el i m i t e dp e r f o r m a n c eo ft h e n e t w o r kn o d e sa n dt h e l a r g ea m o u n to fd a t at r a f f i c s ,al o wc o m p l e x i t ya l g o r i t h mi s n e e d e d t h ep a c k e t l a y e rm o d e lo n l yu s e st h ep a c k e t - h e a d e ri n f o r m a t i o nw i t h o u t r e s o r t i n gt ot h er e l a t e dp a y l o a di n f o r m a t i o n ,a n di th a sl o wc o m p u t a t i o n a lc o m p l e x i t y t h e r e f o r e ,t h ep a c k e t - l a y e rm o d e li sw e l ls u i t e df o rr e a l t i m em o n i t o r i n ga tn e t w o r k s n o d e s 一 a c c o r d i n g l y ,n o - r e f e r e n c es p e e c hq u a l i t ya s s e s s m e n tb a s e do nt h ep a c k e t - l a y e r m o d e li sa d d r e s s e di nt h i sp a p e r t h ef r a m e w o r ko fs p e e c hq u a l i t ya s s e s s m e n tf o r a m r w b + c o d e ci s d e v e l o p e d f i r s t l y ,b ya n a l y z i n gt h ep a c k e th e a d e r ,i n f o r m a t i o n a b o u tc o d i n gr a t eo ft h eb i ts t r e a m ,t h en u m b e ro fl o s tp a c k e t sa n d p a c k e tl o s sl o c a t i o n s i se x t r a c t e dt op r e d i c tt h ev o i c eq u a l i t y t h e n ,c o d i n gd i s t o r t i o nc o r r e s p o n d i n gt ot h eb i t r a t ei sd e t e r m i n e dt h r o u g he x p e r i m e n t s t h i sp a p e rm a i n l yr e s e a r c h e st h ee f f e c to f p a c k e tl o s so ns p e e c hq u a l i t y f o rd i f f e r e n tm e t h o d so fd e a l i n g 诵t l lp a c k e tl o s s ,f o u r m e t h o d sf o rs p e e c hq u a l i t yp r e d i c t i o nb a s e do nt h ep a c k e t l a y e rm o d e la r ee s t a b l i s h e d f i r s t l y ,p a c k e tl o s sr a t ei su s e dt om e a s u r et h ee f f e c to fp a c k e tl o s so ns p e e c hq u a l i t y t h er e l a t i o n s h i pa m o n gp a c k e tl o s s r a t e ,c o d i n g d i s t o r t i o na n ds p e e c hq u a l i t yi s a n a l y z e da n d t h es p e e c hq u a l i t ye v a l u a t i o nm o d e li sp r o p o s e db a s e do np a c k e tl o s sr a t e s i n c et h el o s so fm u t ef r a m e sh a sl i t t l ei m p a c to ns p e e c hq u a l i t y ,t h ef a c ti sw e l l i n c o r p o r a t e di nt h ep r o p o s e dm o d e l c o n s i d e r i n gt h e d i f f e r e n ti n f l u e n c eo fd i f f e r e n t p a c k e tl o s sp a t t e r n so nt h eq u a l i t yo fs p e e c h ,t h ep a c k e tl o s sb u r s t i n e s sp a r a m e t e ri s o b t a i n e db ya n a l y z i n gt h er e l a t i o n sb e t w e e nt h r e ep a r a m e t e r s ,i e ,t h ed e n s i t yo fb u r s t , t h en u m b e ro fb u r s tp e r i o d sa n dt h er a t i oo fb u r s tl o s sw i t h i nl o s s ,a n dp a c k e tl o s s b u r s t i n e s sl e v e l ,t h es p e e c hq u a l i t ye v a l u a t i o nm o d e lt a k i n gp a c k e tl o s sb u r s t i n e s si n t o c o n s i d e r a t i o ni sp r o p o s e d f i n a l l y ,b a s e do nt h r e em o d e l s m e n t i o n e da b o v ea n d a c c o r d i n gt ot h er e l a t i o n s h i pb e t w e e np e rf r a m ea n ds p e e c hs e q u e n c e s ,t h et w o - s t a g e m i n k o w s k is u m m a t i o ni su s e dt or e f l e c tt h ee f f e c to fp a c k e tl o s sl o c a t i o n so ns p e e c h q u a l i t y ,a n dt h es p e e c hq u a l i t ye v a l u a t i o nm o d e lb a s e do nt e m p o r a lp o o l i n gi sb u i l t t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e df o u rm o d e l sh a v eg o o dp e r f o r m a n c e ,a n d a m r 网络语音流的包层质量评估方法 t h ef o n ho n eu s i n gt e m p o r a lp o o l i n gp r o v i d e st h eb e s tc o n s i s t e n c yb e t w e e ns u b j e c t i v e a n do b j e c tv a l u e s k e y w o r d s :p a c k e t l a y e rs p e e c hq u a l i t y a s s e s s m e n t c o d i n g d i s t o r t i o n p a c k e tl o s sa c t i v ep a c k e td e t e c t i o nm e t h o dp a c k e tl o s sb u r t i n e s sm e a s u r e t e m p o r a lp o o l i n g 第一章绪论 第一章绪论 1 1 研究背景和意义 随着无线网络技术的快速发展和多媒体领域的不断突破,语音业务已经逐渐 扩展到生活的各个领域。v o i p ( v o i c eo v e ri p ) 1 1 1 成为一种新兴的通信服务,它采用 分组交换技术实现语音业务的传输。与传统电话相比,v o i p 的带宽利用率高,通 信成本低,且具有开放性的特点。但是,由于网络提供尽力而为( b e s te f f o r t ) 的服务, 因此不能保证数据正确及时地到达目的地。网络会出现传输延时,分组丢失以及 分组乱序等现象。网络语音业务无法得到有保证的服务质量,网络所提供的语音 质量成为其发展的挑战,语音质量问题越来越受到人们的关注。为了向消费者提 供良好的语音业务,研究更有效的语音质量评估方法来快速准确地评估语音质量 已成为研究重点。 为了更大限度地满足消费者对语音质量的要求,需要考虑消费者的主观感受, 而消费者对于语音的主观感受最终取决于语音质量。因此,语音质量评估显得日 益重要。语音质量评估在语音通信领域中占重要的地位。语音质量反映出语音系 统的性能,系统可以根据评估的语音质量给出的反馈信息来调节编解码器或信道 参数,从而保证系统的服务质量。 语音质量评估分为主观质量评估和客观质量评估。主观质量评估方法能够准 确反映人的主观感受,是所有客观评估方法的基础。但是此方法需要提供严格的 测试环境,并受主观因素的影响。所以, 不好等。针对主观评估方法存在的不足, 成本高、费时费力、灵活性差和重复性 人们试图寻求种快捷方便的评估方法, 即客观质量评估方法。该方法使用电子设备自动预测语音质量,操作简单,适合 于网络的实时监测。其中,全参考方法中的感知模型在客观语音质量评估研究中 占据十分重要的地位,它模拟人类的听觉系统,可大幅度提高评估方法的性能。 由于人们对听觉感知机理认识不完善,因此很有必要引入新的分析技术来进行语 音质量评估,使得客观质量分值更逼近于主观质量分值。在实际的很多领域中, 要求客观评估方法具有较高的灵活性,且在不能获取原始信号的情况下评估失真 语音的质量。因此,需要使用无参考方法对输出语音进行质量评估。现今该方法 与主观质量评估方法的相关性较低,有待于进一步研究。 针对不同的应用,研究学者们已提出多种客观质量评估方法1 7 椰j 。对于网络语 音业务而言,由于网络节点的性能有限且业务处理量较大,因此不允许对语音进 行解码,所以比特流层的语音质量评估方法不适合于评估网络语音质量。而包层 的语音质量评估仅允许介入数据包的头部信息,不能利用有效载荷信息,因此计 2 a m r 网络语音流的包层质量评估方法 算复杂度较低,适合于在网络节点对大量码流进行实时质量监控。因此,研究包 层质量评估方法已成为人们关注的热点。鉴于此,本文根据影响语音质量的因素, 建立包层的语音质量评估模型。 1 2 论文的研究内容 本文的主要工作是研究包层的语音质量评估方法。语音质量评估分为两大模 块:压缩失真评估模块和网络丢包失真评估模块。同时考虑两个模块的作用,以 此来预测语音质量。本文的主要内容有以下几方面: 在网络节点对码流进行质量评估时,需解析接收到的所有数据包,并从包头 中提取有用信息,因此首先需了解网络语音的传输协议栈。在此基础上,考虑影 响语音质量的因素,本文给出了包层的语音质量评估的基本框架,研究了从数据 包的头部信息中获取编码速率、丢包率等信息的处理过程。 针对于a m r w b + 编码标准,首先通过实验确定各编码速率对应的压缩失真。 然后重点研究丢包对语音流质量的影响。本文根据丢包采用的不同处理方式,建 立了四种包层的语音质量评估模型。首先采用丢包率来衡量丢包对语音质量的影 响,研究丢包率和压缩失真与语音质量的关系,并建立基于丢包率的语音质量评 估模型。实验表明,语音质量不仅与丢包率有关,还受丢包内容的影响。由于语 音帧的丢失会导致重要信息的丢失,其严重影响语音质量;静音帧的丢失对语音 质量几乎没有影响。所以,忽略静音帧丢失所造成的影响,根据各帧的长度信息 和语音信号的短时相关性预测丢失包的内容特性,研究语音丢包率、压缩失真和 语音质量的关系,进而提出基于语音丢包率的语音质量评估模型。考虑到丢包模 式对语音质量的不同影响,分析突发密度、突发段的个数和突发比例三个参数与 突发程度的关系,提出丢包突发性测量参数,研究丢包突发程度、语音丢包率、 压缩失真和语音质量的关系,进而建立考虑突发丢包性的语音质量评估模型。在 以上三种模型的基础上,考虑不同位置的语音丢失对语音质量的不同影响,根据 单帧与语音序列的关系,采用m i n k o w s k i 法反映序列质量的变化对人类感知的影 响,提出基于时域联合的语音质量评估模型。最后,本文对四种模型的性能进行 验证。 1 3 论文的组织结构 本论文一共分为五章,其组织结构如下: 第一章绪论。介绍了课题的研究背景和意义,叙述了本文的研究内容,最后 给出了本文的组织结构。 第二章语音质量评估方法。总结了现今存在的主客观质量评估方法,给出了 第一章绪论 3 包层的语音质量评估的基本框架,并分析了影响语音质量的因素。 第三章包层的参数化语音质量评估。分析语音的内容特性和丢包的突发性, 提出三种包层的参数化评估模型。给出了实验过程和实验结果。 第四章基于时域联合的语音质量评估。分析单帧与整个语音序列的关系,考 虑丢包位置对语音质量的影响,建立基于时域联合的语音质量评估模型。给出了 实验过程和模型的性能比较结果。 第五章总结与展望。总结本文完成的主要内容,并指出进一步研究的方向。 4 a m r 网络语音流的包层质量评估方法 第二章语音质量评估方法 5 第二章语音质量评估方法 随着网络技术的不断发展,基于i p 包交换的网络语音业务获得了广泛的应用。 由于网络提供尽力而为的服务,所以无法得到有保证的语音服务质量,语音质量 无疑成为一个重要的问题。如何建立有效的语音质量评估模型是语音业务发展的 关键。本章首先介绍语音质量的定义及语音质量的主客观评估方法。 客观质量评估方法实现简单,实时性好,更适合于网络语音业务。由于网络 节点的性能有限,且业务处理量较大,因此,需要一种低复杂度的客观评估算法。 包层的语音质量评估方法适合于此类应用。由于该类模型仅允许介入语音数据包, 因此,先需了解网络语音流的封装方式和数据包的头部信息,即网络语音流的结 构。为了评估网络语音质量,需进一步研究影响语音质量的因素。 2 1 语音质量 通常,人既是语音的发送主体,也是语音的接收主体。语音的自然属性和社 会属性决定了人对语音的主观感知涉及到语音信号的物理特征、听觉心理等多方 面内容。因此,很难对语音质量做出精确的全面的定义。 一般来说,语音质量包括两个方面:清晰度和自然度。清晰度指的是语音中 的字、词和句的清晰程度;自然度则指对讲话者的辨识水平,与语音的保真性紧 密相关。语音质量评估不但与语言学、语音学、信号处理等学科有关,而且与生 理学、心理学等学科有密切的联系,因此语音质量评估是一个非常复杂的问题。 根据评估主体的不同,将语音质量评估方法分为主观质量评估和客观质量评估两 类。 2 2 1 主观质量评估 2 2 语音质量评估方法 主观质量评估是以人为主体根据某种预先约定的尺度来对失真语音划分质量 等级。它反映了试听者对语音质量好坏程度的主观印象。目前,国内外常用的主 观评估方法有:平均意见分( m e a no p i n i o ns c o r e s ,m o s ) 2 、失真平均意见分 ( d e g r a d a t i o nm e a no p i n i o ns c o r e s ,d m o s ) 1 3 1 、判断满意度测量( d i a g n o s t i c a c c e p t a b i l i t ym e a s u r e ,d a m ) 4 1 和韵字可懂度测量( d i a g n o s t i cr h y m et e s t s ,d r t ) t 5 】 等。其中,m o s 法是目前国内外使用最为普遍的一种方法,它可以作为衡量客观 评价方法好坏的重要依据。 m o s 方法用于评价语音的整体满意度或语音通信系统的性能。其选用4 0 6 0 6 a m r 网络语音流的包层质量评估方法 位不同性别、不同年龄和不同语言的测试者对语音进行试听且评分,测试完成后, 全部实验者测试结果的平均值即为测试语音质量的m o s 值。这是一种纯粹主观的 定性测量。评分被分为1 5 五个等级,具体内容见表2 1 。 表2 1m o s 五级评分标准 m o s 分语音质量失真程度 5 优 不易察觉 4良刚刚察觉但不讨厌 3一般 可察觉但稍微讨厌 2差讨厌但可忍受 l极差非常讨厌且不能忍受 由于多种原因,即使在相同的测试条件下,选用相同的人员进行测试,每次 测试获得的m o s 值都会有所不同。为了减少m o s 值的波动,实验人数要足够多, 测试语音材料要足够丰富,测试环境也应尽量保持相同,要严格遵守测试要求。 主观质量评估符合人对语音的主观感知,所以这种评价能够准确反映语音的 质量。其缺点是各种失真混为一谈,不利于算法的改进。而且,这种方法成本高, 费时费力,灵活性差,受人的主观因素影响较大,也不能用于网络的实时监控。 因此,人们提出了语音质量评估的客观方法。 2 2 2 客观质量评估 语音质量的客观评估是在不需要评听者的情况下,提供话音质量的自动评估。 它运用已建立的算法模型对测试语音进行分析,从而获取最终的客观分值。客观 评估算法的性能好坏是以主观质量评估为标准来评估的。客观评估方法建立在数 学模型的基础上,很容易被电脑处理,成本低,适合于实时网络监测。该方法弥 补了主观评估的缺陷,适应技术的发展,因此具有广泛的应用。 自1 9 7 0 年底以来,基于多种语音分析模型,研究人员已经提出了许多种客观 评价方法。根据评估原理的不同,客观评估方法被分为两类:全参考评估方法和 无参考评估方法,见图2 1 。全参考评估方法是用输入语音( 原始语音) 和输出语 音( 失真语音) 间的误差大小来预测语音质量。通过提取两种语音的特征参数来 建立评估模型。无参考评估方法仅根据语音系统的输出信号来评估语音质量。 第二章语音质量评估方法7 预测的语音质量 预测的语音质量 音 图2 1 客观评估方法 2 2 2 1 全参考语音质量评估 不同类型的全参考评估方法具有相似的测量结构【6 1 ,其包括两个处理过程,如 图2 2 所示。第一个处理过程包括语音信号的预处理和相关语音参数的提取。第二 个过程为距离测量,使用合适的定量测量来计算输入信号和输出信号之间的失真。 预测语音 质量 图2 2 全参考语音质量评估的原理框图 根据使用的域变换的不同,全参考客观评估方法分为时域测量,谱域测量和 感知域测量三类【6 j 。时域测量度量输出信号相对于输入信号的波形失真程度。其适 用于波形编码系统,用来恢复语音波形。典型的时域测量有信噪l l ( s i g n a l t o - n o i s e r a t i o s n r ) 和分段信噪【= t ( s e g m e n t a ls n r ,s n r s e g ) 1 7 j 。谱域测量度量输出信号相 对于输入信号的频谱失真程度,它比时域测量更可靠,因为其不易受原始信号与 失真信号时间不对齐和相移的影响。谱域测量方法包括对数似然比( 1 0 9l i k e l i h o o d r a t i o ) 、板仓斋田距离( i t a k u r a s a i t od i s t a n c e ,i s d ) 和倒谱距离测量( t h ec e p s t r a l 8a m r 网络语音流的包层质量评估方法 d i s t a n c em e 嬲u r e ) 1 8 】,1 9 。因为大多数谱域测量使用语音产生模型的参数,所以,其 性能受模型的限制。 相较于谱域测量,感知域测量建立在人耳听觉特性的基础上,使用听觉感知 模型来模拟收听过程。因此,可以大幅度的提高整个评价方法的性能。听觉模型 有:b s d 、m b s d 、p s q m 、p s q m + 、p a m s ,p e s q 等。 巴克谱失真( b a r ks p e c t r a ld i s t o r t i o n ,b s d ) i i o 是1 9 9 2 年s w a n g ,a s e k e y 和a g e r s h o 提出的一种客观测量方法。该方法对客观质量评估的研究具有较大的影响。 b s d 方法是一种以人的听觉感知特性为基础构造出的听觉变换模型,它模拟了人 对语音信号的三个感知机理,使用原始语音和失真语音巴克谱向量的欧氏距离的 平均值来测量失真。其主要目的是模仿语音感知过程的已知特点。继b s d 方法之 后,r y a n t o m o 和w y a n g 等学者将同时掩蔽效应引入改进b s d 中,计算噪声遮 蔽门限,提出了改进巴克谱失真( m o d i f i e db a r ks p e c t r a ld i s t o r t i o n ,m b s d ) 1 1 1 】,1 1 2 l , 1 1 3 】 和增强型改进巴克谱失真( e n h a n c e dm o d i f i e db a r ks p e c t r a ld i s t o r t i o n ,e m b s d ) 1 1 4 j 方 法。 感知语音质量测量( p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e m e n t ,p s q m ) 1 1 5 1 是由荷兰 k p n 研究机构中的b e e r e n d s 和s t e m e r d i n k 开发的一种基于人的主观感知的语音质 量评估方法。它采用原始信号与失真信号间的感知距离来评估语音质量,其适用 于测量窄带语音编解码器的客观质量。这种方法适合于高速率编码的语音质量评 估。其缺点是没有考虑传输比特误码、帧丢失等因素的影响。1 9 9 7 年i t u t 制定 了增强型算法p s q m + t 1 6 】,可有效分析大量的失真。 感知分析测量系统( p e r c e p t u a la n a l y s i sm e a s u r e m e ms y s t e m ,p a m s ) 1 1 7 】,【1 8 】是第 一个关注端到端行为,考虑滤波和时延造成的影响的评估模型。该方法分析失真 信号中的不同类型的错误,将不同类型错误参数化并映射到预测感官模型上得到 一个感知分数。 感知语音质量评估( p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y , p e s q ) 1 1 9 1 结合了 p s q m ( p s q m + ) 和p a m s 的优柑s q m 的听觉模型和p a m s 的时间对齐,该算法 既考虑了端到端时延,可以评估不同类型的网络,又采用改进的听觉模型和认知 模型技术,对通信延时和环境噪声等都有很好的鲁棒性。p e s q 算法是目前为止与 主观质量评估相关性最高的一种算法。p e s q 算法原理框图如图2 3 所示。 第二章语音质量评估方法 9 参考信号 电平输入听觉 l 一 调整 +变换 滤波 时 间 对 嘉动处理h 蓑耋 _ 被测系统 齐 处 失真信号一i 调整l 入i 滤波i 7 理 一錾鬟l - | 标识坏段, 坏段重对齐 图2 3p e s q 算法原理框图 p e s q 算法的思路是:首先将参考信号和失真信号的电平调整到标准听觉电 平,再用输入滤波器模拟标准电话听筒进行滤波,然后对两个信号进行时间对齐, 将对齐好的信号进行听觉转换,该变换包括对系统中线性滤波和增益变化的补偿 和均衡。以两个听觉变换后的信号间的不同作为扰动,即差值,分析扰动曲面提 取出两个失真参数,在频率和时间上累积起来,映射到主观平均意见分的预测值。 在干扰度的处理中可能会识别出坏区间,这样就需对坏区间进行重新对齐。 p e s q 算法是进行语音质量评估的最精确的方法。其针对不同原因的信号失 真,如编解码失真、丢包、延时和抖动等,给出1 4 5 范围内的分值。此算法可用 于编解码以及系统评估、选择和优化。 在以上介绍的全参考方法中,感知域的语音质量评估方法与主观评估方法的 一致性最好。它是一种基于人类听觉系统的心理声学模型,其模拟了人耳的听觉 特性。人的听觉是一个复杂的主观心理感知过程,可通过综合考虑人的主观因素 的影响来改进客观评估方法,建立更全面更准确的人耳听觉模型。全参考评估方 法需要根据已知的原始信号来评估语音质量,而在实际的很多领域中,如无线通 信,现代军事等,要求客观评估方法具有较高的通用性和灵活性,需在不能获取 原始信号的情况下对输出信号进行质量评估。因此,从九十年代开始无参考语音 质量评估方法得到了国内外学者的重视。 2 2 2 2 无参考语音质量评估 在全参考评估方法中,输入信号和输出信号的时间对齐是通过设备的自动同 步完成的,它是决定语音质量评估准确性的重要因素。因此,全参考语音质量评 估比较精确,可以获得更多的语音信息,但不适合监测实时网络。而无参考评估 方法弥补了全参考方法的缺陷,其仅使用输出语音信号来评估语音质量。具体模 型的介绍如下所示。 1 9 9 6 年,r k u b i c h e k 和c j i 等学者提出了基于p l p ( p e r c e p t u a ll i n e a rp r e d i c t i o n ) 参数的客观质量评估方法【2 0 l ,【2 l 】。该方法是基于低阶p l p 模型,通过搜索码本,找 1 0 a m r 网络语音流的包层质量评估方法 出与失真语音的最佳匹配矢量,以此来评价语音质量。在实际应用中,此方法很 难确定码本的构造形式以及在强噪声下语音信号的分割方法等问题。 o c a u 和k h l a m 等人在语音信号的语谱图的基础上,提出了两种基于语谱 图分析的客观评价测度( o u t p u t b a s e dm e a s u r e ,o b m ) o b m l 和o b m 2 2 2 】。由于语 谱图是语音信号的频域表达方式,它包含了大量的声学信息。所以,该方法可以 反映语音信号的特性。其缺点是,o b m 的定义过于简单,不能表征不同语音质量 在语谱图上的变化。 2 0 0 2 年,a d r i a ne c o n w a y 提出了一种新的无参考评估方式1 2 3 1 ,使用封装好 的本地已知的原始信号的有效载荷去替换从网络节点中复制下来的i p 分组流中的 有效载荷。本地已知原始信号的编码算法和封装方式与复制包的相同,这些信息 都可以从r t p 头中获得。将解包、解码后的失真语音信号和原始语音信号进行比 较,得出接收语音信号的主观感知质量。该算法不需要任何发送设备,由于它采 用了已知的处理算法( 如p e s q ) ,所以,此方法继承了i t u t 客观方法的精确性。 2 0 0 4 年,i t u tr e c p 5 6 3 推出了一种无参考语音质量评估算法1 2 4 j 。该算法是 第一个被国际认可的单端非侵入式方法。首先从以下三方面提取出一系列重要参 数:( 1 ) 声道分析和语音的不自然。( 2 ) 强大的附加噪声的分析。( 3 ) 干预、静音和沿 切割。基于这些参数,结合每类失真的参数产生中间质量等级,再通过中间语音 质量的线性组合来获得总的语音质量。 e m o d e l ! ”j 是用于网络传输规划的计算机模型,其最初是由e t s i 标准组织提 出的,后被i t u t 标准化为q 1 0 7 建议。e m o d e l 考虑了延时、抖动、丢包、噪声 和回音等损伤因素对语音质量的影响。它的评价标准如图2 4 所示。 r 1 0 0 g 1 0 7 默认值9 4 9 0 用户满意度 非常满意 满意 有些用户不满意 许多用户都不满意 几乎所有用户都不满意 没有定义 图2 4g 1 0 7 评价标准 e m o d e l 的思想是将影响话音质量的若干因素综合为传输性能等级系数r ,从 塔 4 3 o 6 l 6 0 搬 t t 屯 幺 l o 第二章语音质量评估方法 而预测语音质量。e m o d e l 的主要输出是月,r 的构成见式( 2 1 ) 。月值的范围为 0 1 0 0 。r 值越大,表明语音质量越好。随着编解码器类型、传输协议和通信模式 的不同,各种损伤因子会有不同的取值,从而对应不同的尺值。月和m o s 间存在 可逆的映射关系,具体内容见式( 2 2 ) 。 r = r o 一厶一肘一乃一q 矿+ 彳式( 2 1 ) f lg 0 s q = t l + 0 0 3 5 r + r ( r 一6 0 ) ( 1 0 0 一r ) 7 x 1 0 - 6 0 r 1 0 0 其中,r o 代表基本信噪比,包括电路噪声和室内噪声等噪声源。系数厶是大 体上与声音信号同时出现的所有损伤的组合。系数尉表示由信号延迟引起的损伤。 有效设备损伤系数l e e l f 代表由低比特率编解码产生的损伤,它也包含由于随机 分布的包丢失带来的损伤。获益系数彳是在有其他优势引入用户时损伤因子得到 的补偿。为语音质量。 e m o d e l 通过分析网络参数,建立这些参数与语音质量的映射关系。这种映射 关系是静态的,而以静态的映射标准来测量动态的语音数据是不准确的,不能反 映网络的全程质量。 q m o d e l 2 6 j 是增强型e m o d e l ,其使用丢包突发性参数。q m o d e l 的思想是: 将突发状态下的丢包率转化为具有相同q o e 的随机状态下的丢包率,称为等效随 机丢包率气,此参数将丢包率和丢包突发性测量结合起来,再用只k 代替丢包概 率厶直接在e m o d e l 中使用,气的计算见式( 2 3 ) 。其算法的优点是:计算复杂 度较低,可以准确地评估丢包情况下的语音质量。 n - i p p l e = 0 ,+ 口。b n = 0 式( 2 - 3 ) 其中,最是第刀个数据包的丢包突发性测量参数。口。为权重系数,它的选取 依靠于在低丢包率和高丢包率下丢包的不同影响。为数据包的总数目。 v q m o n l 2 7 】是一种相对简单的无参考评估方法,它考虑了丢包的影响和近因效 应的影响。首先将突发状态下和间隔状态下的设备损伤值结合起来计算平均设备 损伤l ( 伽) ,再对延迟的影响进行建模,通过感知质量的指数衰减来确定近因效应 的影响,最后获取尺值。该算法可以有效地评估网络的语音质量。 通过文献【2 8 】中的实验发现,不同内容的丢包对感知语音质量有不同的影响。 丢失静音帧对语音质量的影响很小,但是丢失语音帧对语音质量的影响较大。基 于此思想,许多学者提出了新的语音质量评估方法。 感知语音质量预测方法【2 9 】考虑了丢失数据包的内容特性,采用话音激活检测 技术v a d 来判断各帧的类型。由于丢失静音对语音质量的影响很小,可以忽略不 1 2 a m r 网络语音流的包层质量评估方法 计,因此以语音丢包率和其他参数作为人工神经网络a n n 3 0 】的输入,以此来预测 语音质量。由于神经网络具有学习能力,因此模型适用于i p 网络的动态环境。 浊音感知的参数化语音质量评估【3 1 1 考虑了语音帧的特点和丢包位置的影响。 根据语音的特点,将语音信号分为浊音、清音和静音三种类型。算法s u v i n g t 3 2 】 使用过零率和短时能量法来区分信号的类型。此外,可通过设置最大阈值和最小 阈值来更准确分析信号的类型。然后分别统计浊音和清音的单值参数和多值参数, 多值参数使用l 。n o r m 进行聚合,具体计算见式( 2 4 ) i 再分别使用浊音和清音的 参数计算清音和浊音的质量,最后将两者的质量结合起来评估整个语音序列的质 量。 厂1 形 l ( x ( 七) ) = l 寺g 矿r 式( 2 - 4 ) l ”;l j 其中,x 伍) 是参数x 的第k 次测量,是参数的测量总数,l 。n o r m 被用来 建模人类听觉系统的非线性。实际上,l 。n o r m 强调了在感知质量中参数变化的 影响。 考虑包检测的网络语音质量评估方法【3 3 】利用话音激活检测技术v a d 和帧电平 l e v e l 来预测丢失包的内容特性,减少了误判现象。在此基础上,用语音丢帧率代 替丢包率,且在e m o d e l 中直接使用。其中,l e v e l 的计算见式( 2 5 ) 。该算法的性 能优于e m o d e l ,能更准确的评估语音质量。 e n d l e v e l ( n ) = i s ( ) i 式( 2 5 ) i 年$ 1 a r 其中,s ( f ) 为第力帧的第f 个样点值。 客观评估与主观评估具有一致性。但是,客观评估不能完全替代主观评估, 由于现在我们还无法建立一个能完全模仿人类感知过程的客观评估模型,因此, 获取的客观质量只能尽可能接近主观质量。通过引入新的分析技术,挖掘更多的 听觉感知机理,建立更有效的感知模型来准确评估语音质量。 主观质量评估和客观质量评估各有优势,应根据实际要求选择合适的方法。 在实际应用中,往往将两种方法结合起来使用。客观评估用于系统的设计、调整 和现场的实时监测阶段;主观评估用来检验最终的结果和评估客观方法的性能。 两者相铺相成,用于不同的环境。 2 3 网络语音流的结构 客观质量评估方法实现简单,实时性好,适合于网络语音业务。为了给消费 者提供良好的网络语音服务质量,人们需在网络节点监测语音质量。对网络节点 的语音质量进行评估时,需先从码流中提取一些可用信息,然后按照一定的算法 第二章语音质量评估方法 模型对这些信息进行分析,最后预测出接收端的语音质量。因此,首先我们需了 解网络语音流的结构。 网络语音流的结构如图2 5 所示。首先,发送端采集语音并进行量化、编码, 经封装打包后发送至传输网络,接收端收到码流后,通过解包和解码,最终恢复 出语音信号。 发送端 接收端 图2 5 网络语音流的结构 语音数据在传输前,需要对数据进行封装打包,为了实现语音的实时传输, 一般采用r t p l 3 4 】f 3 5 a j d p l 3 6 l f l p 传输协议栈。具体结构见图2 6 。压缩后的数据被封 装成r t p 数据包,一个r t p 包可以包含多帧,再把数据包交给传输层并以u d p 包的形式传输到i p 网络中。 图2 6 语音流的传输协议栈 包层的语音质量评估方法仅允许介入数据包的头部信息,因此,需要了解i p 头部信息,u d p 头部信息和r t p 头部信息。下面简单介绍i p a j d p r t p 的结构。 i p 包的结构见图2 7 。 o1 63 2 h e a d e r v e r s i o n t y p eo fs e r v i c e t o t a ll e n g t h l g t i l i d e n t i f i e r f l a g sf r a g m e n t e do f f s e t t i m e t o l i v ep r o t o c o lh e a d e rc h e c k s m s o u r c ea d d r e s s d e s t i n a t i o na d d r e s s o p t i o n sp a d d i n g 图2 7i p 包的结构 1 4a m r 网络语音流的包层质量评估方法 其中: i p 包头长度( h e a d e rl e n g t h ) :4 比特。这个字段描述i p 包的头部长度,该部 分占4 个b i t 位,单位为3 2 b i t ,即本区域值= i p 头部长度( 单位为b i t ) ( 8 4 ) 。因 此,一个i p 包头的最大长度为“1 1 1 1 ”,即1 5 4 = 6 0 个字节。i p 包头的最小长度为 2 0 字节( 可选项与填充项均为o ) 。 i p 包总长( t o t a ll e n g t h ) :1 6 比特。p 包的长度( 包括头部和数据) 是以字节为 单位进行计算的。所以,i p 包的最大长度为6 5 5 3 5 字节。 u d p 包的结构如图2 8 所示。 o1 63 2 5 0 u l r c ep o r tn u m b e rd e s t i n a t i o np o r tn u m b e r l r d pi e n l g t hu d pc h e :c k n u m d a t a ( i f a n y ) 、 图2 8i j l d p 包的结构 其中: 长度字段( u d pl e n g t h ) :1 6 比特,表示u d p 头部和u d p 数据的总字节数。 r t p 分组的结构见图2 9 。 01 63 2 vpx c c mp t s e q u e n c en u m b e r t i m e s t a m p s y n c h r o n i z a t i o ns 0 1 i i 优( s s r c ) i d e n t i f i e r c o m r i b u t i n gs o i l i c e ( c s r c ) i d e n t i f i e r s 图2 9r t p 分组的结构 在r t p 分组的头部中,前1 2 个字节是必须的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论