(通信与信息系统专业论文)pesq算法在移动cqt上的应用与实现.pdf_第1页
(通信与信息系统专业论文)pesq算法在移动cqt上的应用与实现.pdf_第2页
(通信与信息系统专业论文)pesq算法在移动cqt上的应用与实现.pdf_第3页
(通信与信息系统专业论文)pesq算法在移动cqt上的应用与实现.pdf_第4页
(通信与信息系统专业论文)pesq算法在移动cqt上的应用与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学 硕士学位论文摘要 学科、专业;工学通信与信息系统 研究方向:i p 与宽带网络技术 作 者:三塑生级研究生 王晓娣指导教师焦丞竖 题目:f e s q 算法在移动c q t 上的应用与实现 英文题目:t h ea p p l i c a t i o na n di m p l e m e n t a t i o no fp e s q i nm o b i l ec q t 主题词:感知语音质量评估感知语音质量测量 平均意见分呼叫质量测试 k e y w o r d s :p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e m e n t m e a no p i n i o ns c o r e c a l lq u a l i t yt e s t 南京邮电大学硬士研究生学位论文 摘要 摘要 在移动通信中,保证语音服务质量占据着重要的地位,现场呼叫质量测试即c q t ( c a l l q u a l i t yt e s t ) 就是重要保证措施之一。目前,呼叫质量测试还停留在人工拨打、手工记录 的较低层次上,这与网络迅速发展、维护工作量急剧增加的现状和趋势极不适应,因此迫 切需要一种能把网络维护人员从目前繁重低效的人工采集、人工记录的工作中解放出来的 自动化测试方法。 r r u t 在e 8 6 2 建议中给出的感知语音质量评估( p e s q ) 方法使自动呼叫质量测试 成为可能。p e s q 算法既建立在客观评价模型的基础上,又使得客观评估结果与主观评定 结论一致性最高。它是许多年来对客观语音质量评定方法不断改进的最新成果,不但适用 j 二语音编解码器,还适用于v o i p 的端到端测量,被推荐用来评估带宽为3 i k h z 的手机 和窄带语音编解码器的语音质量。 本课题属于移动c q t 自动化项目,分为两部分:移动c q t 前台语音自动发送与采集, 由我同学黄勇承担;移动c q t 后台语音质量分析算法与软件,由我承担。 首先本文对p e s q 在呼叫质曩测试中的实现算法与应用进行了较深入的研究,介绍了 h u - t 主观m o s 评价方法,比较了几种目前能提供主客观相关性较高的音质客观评价方 法,分析了p e s q 的优势。然后讨论了p e s q 的算法实现,首先建立语音感知模型,对语 音进行电平调整和滤波、时间校准、听觉变换、干扰计算等处理,然后再利用相关性把得 到的语音的客观评价质量映射成主观意见估计分( p e s q _ m o s ) 。再通过映射函数把 p e s q m o s 分映射到m o s l q o 分,方便与m o s 分的线性比较。最后简单介绍了p e s q 在c q t 上的具体硬件实现。 曼塞塑皇查堂璧主要塞兰堂丝丝苎 些竺坚 a b s t r a c t t h es p e e c hq u a l i t yi sv e r yi m p o r t a n ti nm o b i l es y s t e m t h ec a l lq u a l i t yt e s ti st h em o s t i m p o r t a n ta p p r o a c ht oe v a l u a t et h es p e e c hq u a l i t y a tp r e s e n t ,t h ec a l lq u a l i t yt e s td e v e l o p s s l o w l ya n dc a nn o tb es a t i s f yf o rt h ef a s td e v e l o p m e n to f n e t w o r k sa n dm o r eh a r dw o r k s oa l l a u t o m a t i ct e s tm e t h o di ss t r o n g l yn e e d e dt of r e en e t w o r km a i n t a i n e r sf r o mh e a v yh a n d w o r k t h em e t h o do fe v a l u a t i n gs p e e c hq u a l i t yp u tf o r w a r d e di ni t u te 8 6 2 - p e s qm s k e s a u t o m a t i ct e s tp o s s i b l e p e s qi sa na d v a n c e ds p e e c hs u b j e c t i v ee v a l u a t i o nm e t h o dt h a td e p e n d s o no b j e c t i v em o d e l sa n dh a st h eh i g h e s tc o r r e l a t i o nb e t w e e ns u b j e c t i v i t ya n do b j e c t i v i t y i ti s t h er e s u l to fs e v e r a ly e a r so fd e v e l o p m e n to fo b j e c t i v es p e e c hq u a l i t ye v a l u a t i o na n di s a p p l i c a b l en o to n l yt os p e e c hc o d e c sb u ta l s ot o 、,o i pe n d t o - e n dm e a s u r e m e n t s a n di s r e c o m m e n d e dt oe v a l u a t i n gs p e e c hq u a l i t yo f n a r r o w b a n dm o b i l es y s t e ma n ds p e e c hc o d e c s t h i st a s ki sp a r to ft h ea u t o m a t i cc q tp r o j e c t ,w h i c hh a st w op a r t s o n ei st h ea u t o m a t i c s e n d i n ga n dr e c e i v i n go fs p e e c hi nm o b i l ec q t , w h i c h i ss t u d i e db ym yc l a s s m a t eh u a n gy 0 n g , t h eo t h e ro n ei st h er e s e a r c ha n da n a l y s i so fa l g o r i t h mo fe v a l u a t i n gs p e e c hq u a l i t y , w h i c hi s s t u d i e db ym e t h ea l g o r i t h ma n da p p l i c a t i o no fp e s qi n c a l lq u a l i t yt e s ti ss y s t e m a t i c a l l ys t u d i e di n t h i st h e s i s f i r s t i yi ti n t r o d u c e st h ee v a l u a t i o no fm e a no p i n i o ns c o r e , a n dc o m p a r e ss e v e r a l s u b j e c t i v ee v a l u a t i o nm e t h o d s ,a n da n a l y s i st h ea d v a n t a g eo fp e s q a n d t h e nt h ea l g o r i t h mo f p e s qi sd i s c u s s e d f h - s t i yac o g n i t i v em o d e li ss e tu p , a n dt h e nt h eo b j e c t i v ee v a l u a t i o no f s p e e c hi so b t a i n e dt h r o u g l il e v e la l i g n 、i n p u tf i l t e r 、t i m ea l i g n 、a u d i t o r yt r a n s f o r md i s t u r b a n c e p r o c e s s i n ge t c a tl a s t ,t h eo b j e c t i v ee v a l u a t i o ni sc o n v e n e dt op e s q _ m o ss c o r eb yt h e c o r r e l a t i o nb e t w e e nt h e m t h e nt h i ss c o r ei sm a p p i n gt om o s l q os c o r et om a k el i n e a r c o m p a r i s o nt om o s s c 0 阳,c o n v e n i e n t a tl a s t 。i ti n t r o d u c e st h eh a r d w a r ei m p l e m e n t a t i o no f p e s q i n c q t i i 南京邮电大学硕士研究生学位论文第1 章引言 第1 章引言 1 1 移动通信c q t 背景介绍 通信,顾名思义就是信息传输,包括语音信息和数据信息。从通信伊始,特别是移动 通信,语音信息的传输一直占据着举足轻重的地位。随着移动通信服务市场竞争日趋激烈, 网络运营商更加关注自己和对手的网络服务质量。由于移动通信网络无缝覆盖的特殊性, 对其监测的工具也因各方面因素影响而不同。传统路测( d r i v et e s t ) 是一种利用交通工具对 城乡道路附近的宽广区域网络质量大范围测试方法,考虑的是如何快速、高效的记录分析 大范围无线数据,从丽提供解决方案;c q t ( c a l lq u a l i t yt e s t ) 主要针对热点地区和d t ( d r i v e t e s t ) 无法触及的网络覆盖区域,例如地铁入口、商务写字楼高层或底层电梯口, 这些地方往往又是高话务董区域,如何提高这些地区的通信质量对于提高网络整体服务质 量有着举足轻重的作用,所以c q t 中的语音质量评估更是焦点中的焦点。 目前,d t 经过几年的发展,测试、分析方法己比较成熟,并已在一定程度上实现了 自动化;与此相比c q t 却还停留在手工记录的较低层次上,只能由测试人员在现场拨 打,通话进行主观评估,评估过程易受外界因素干扰,劳动强度高,评估过程无法重复, 评估结果无法与其它数据结合起来统一分析,这与网络迅速发展、维护工作量急剧增加的 现状和趋势极不适应,所以如何更科学更高效地评估语音质量一直是网络运营商关注的问 题。 本文介绍一种基于手机,p d a ( 或笔记本电脑) 和p c 机的自动测试方法。这种方法 可分为前台数据采集和后台控制分析两部分。前台数据采集部分由p d a 、手机和数据线 及运行于p d a 上的数据采集软件完成,后台控制分析部分由运行在p c 机上的控制软件、 数据分析软件( 即算法) 完成。本文侧重对后台控制分析部分即算法的研究,具体硬件实 现由另一位同学黄勇研究,本文第四章将对其做简单介绍。 1 2 主观评价方法 i t u te 8 0 0 协议中给出了几种不同的主观评定方法,其中最简单的是a c r ( a b s o l u t e c a t e g o r yr a t i n g ) 方法。这种方法是建立在多人主观评定打分基础上的一种基本话音质量 南京邮电大学硕士研究生学位论文第1 章引言 评价方法,主观语音评估由2 0 一5 0 人完成,要求每个人在听完一段语音片段后根据自己 的感受给出一个分数,分数分布如表1 1 。另外,协议还提出了d c r ( d e g r a d a t i o nc a t e g o r y r a t i n g ) 方法和c c r ( c o m p a r i s o nc a t e g o r yr a t i n g ) 方法。d c r 方法是让评定主体先后听到 未失真的参考语音和失真语音,然后根据感觉对听觉失真评定,评定标准如表1 2 所示。 c c r 方法是比较昕到的参考语音和失真语音,评定第二个语音的质量比第一个好或者坏 多少,评定标准如表1 - 3 所示。a c r 是在通信系统评估中最常用的方法。 在对通信系统的主观听觉测试中,需要注意以下几点: l - 测试要在一个安静的噪音受到控制的房间里进行。 2 测试用的电话装置符合标准。 3 测试录音长为8 s 左右,内容是不相关的两个句子。 4 测试需要对每个编译码环境下的由两个男性和两个女性发声的语音进行评定。 5 测试主体皆非专家。 一旦测试完成。对所有测试主体的打分取平均值,这个平均值称为m o s ( m e a n o p i n i o ns c o r e ) 分。 由于主观评定方法建立在人的主观听音的感觉之上,很切合话音通信的用户满意程度 指标,也可以将各种话音损伤因素( 噪音,误码,时延抖动,时频域失真,回声等) 对人 的感知效果综合到昕音系统中,因此是一种最重要的语音质量评估方法。但是,该方法也 有其缺陷,应用起来费时费力,在不同试验主体间分散性大,难以用仪表实现,在现实的 网络质量评估过程中难度大,所以近年来r r u t 直致力于客观评估算法。 表1 1m o s 的主观评定标准 l 得分 评价 。 5优异( e x c e l l e n t ) 4 良好( g o o d ) 3 般( f a i r ) 2较差( p o o r ) l极差( b a d ) 2 南京郎电大学碗士研究生学位论文 第l 章引言 1 3 客观评价方法 表1 2d c r 评定标准 得分 评价 5 感觉不到失真 4 可感觉到失真,但是不讨厌 3 感觉到失真,且有些刺耳 2 刺耳 t 非嚣柬| 耳 表1 3c c r j 平定标准 得分评价 3非常好 2 较好 1 稍好 o 大致一样 1 稍差 2 较差 3 非常差 1 3 1 几种客观语音评价方法 客观语音评估方法旨在通过对语音的材料计算给出m o s 估计分值,并使该估计值能 尽量贴近主观评定方法得到的m o s 分值结果。目前能提供主客观相关性较高的音质客观 评价方法,都是考虑了人耳的听觉特性,使用听觉感知模型来模拟收听这一过程的。因此 当前的主流是使用感知模型来评估非线性和易出错的音频通信系统。 s e h r o e d e r 首先提出了语音编码中的知觉掩蔽效应,他曾提出了一个评估编码嗓音的 模型。b r a n d e n b u r g 发展了这个模型并提出了一种估量n m r ( n o i s e o f m a s k i n g r a t i o ) 的 南京邮电大学硕士研究生学位论文第1 章引言 法。 感知语音质量测量( p s q m :p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e ) 在1 9 9 6 年被国际电联 r r u 口采纳成为p 8 6 1 建议,它用于电话带宽在3 0 0 3 4 0 0 h z 之间的语音编解码器的客观 质量的测量。基本结构如图1 1 所示。这个模型的核心是听觉变换,它模拟了人的听觉系 统的主要心理及物理处理过程。计算信号在时域和频域的响度级表示的步骤如下: 1 用长为3 2 m s 的汉宁窗对语音信号做短期傅立叶变换,相邻的帧有5 0 的交迭。 2 经过短期傅立叶变换的信号的功率谱的频率变换到5 6 频带的巴克谱域。 3 局部衡量一对退化语音信号功率逐帧进行部分补偿到参考语音信号功率的水平, 来实现消去低频增益调制。 4 模拟电话机接收频率特性滤波。 5 添加h o t h 噪声。 6 信号响度映射到压缩的晌度级域。 7 逐帧补偿退化语音信号的响度级到参考语音信号的水平。 早期计算质量评估得分的方法都是基于退化语音信号与参考语音信号在听觉变换过 程中产生的平均干扰计算。p s q m 引入了认知模型来描述退化语音信号与参考语音信号在 听觉变换过程中产生的干扰差。它通过模拟两个效应,即不对称和对语音信号不同部分的 不同加权,改进了客观评估分与主观m o s 分的相关性。 当输入信号通过编解码器和传输系统非线性失真( 如时延波动) 后,此时很难将失真 信号在时频分量上线性表达为原始信号加失真信号,但客观评价失真输出信号时采用了上 述线性分析模型,由计算输入输出信号的时频分量的差值,得出干扰函数用以评估语音质 量,这造成客观失真模型得出的失真预测值小于实际主观听觉失真,这种误差就是不对称 效应可由计算不对称干扰密度来模拟。不对称干扰密度由干扰密度乘以一个不对称因子 得到,不对称因子等于失真信号对原始信号的音调功率密度比的1 2 次幂,不对称因子的 合理选取改善了主客观评价模型的误差。 发生在语音活动期的干扰比发生在语音静默期的干扰更令人烦扰,这个效果可以由加 权因子来模拟,这个加权因子可根据试验内容改变。 在1 9 9 6 - - 1 9 9 9 年,p s q m 被进一步改进以适用于实际系统的端到端测试,产生了一 个新的模型p s q m 9 9 。 4 南京邮电大学硕士研究生学位论文 第1 章引言 图1 1 p s q m 原理图 测 感知声音质量测量( p a q m :p e r c e p t u a la u t oq u a l i t ym e a s u r e ) 与其它一些声音模型结 合形成了一个新的模型,即感知声音质量评估( p e r c e p t u a le v a l u a t i o no fa u t oq u a l i t y ) ,并 被i t u r 采纳成为b s 1 3 8 7 协议。 h o l l i e r 通过组合一系列用于谱分析的线性滤波器,不仅考虑了失真大小还考虑了失 真的分布,扩展了巴克谱失真( b s d ) 模型。这个更加精确的巴克谱失真模型成为感知分析 测度系统( p a m s :p e r c e p t u a la n a l y s i sm e a s u r e m e n ts y s t e m ) 的核心。p a m s 用于评估电话网 络和语音编解码器,是第一个可用于端到端系统的评估,包括滤波和时延变化造成的影响 的模型。基本结构如图l ,2 所示。 参考语音信号 = 爿听觉变换 r 调整 ik 、r l l 待测系统j 和 误差参数i 计算 i。 补偿 t 退化语音信号 爿听觉变换l 图1 2 p a m s 原理图 这个模型首先进行时间轴校准,用多个处理步骤来校准参考语音信号与退化语音信 号。语音信号被划分成一段一段的说话,计算时延变化。时延变化是由于基于包的传输引 起的,比方说i p 电话系统。参考语音信号和退化语音信号都要补偿到一个标准的听觉电 南京邮电大学硕士研究生学位论文第l 章弓l 言 平,即7 9 d bs p l 。听觉变换过程如下: 1 用输入滤波器来模拟电话机的响应以及人耳的生理结构。 2 用一组线性滤波器把信号变换到巴克谱的1 9 个频带域。 3 计算每个巴克谱频带内每4 m s 帧的平滑的功率包络。 4 参考语音信号功率部分补偿到退化语音信号功率的水平,确定补偿因子。 5 把信号映射到响度( 单位为方) 域。 6 把信号映射到响度级( 单位为宋) 域。 基于参考语音信号和退化语音信号的听觉变换过程计算一系列误差参数,从而对不同 种类的失真进行了测量。这些误差参数在时间上取平均值,然后通过一个非线性函数映射 到质量评估得分,这个非线性函数保证误差参数与质量评估得分间是单调的。最后计算得 到两个质量评估得分,即在a c r 主观评估方法中的主观m o s 分和听觉努力度得分。 听觉努力度是指测试主体听完测试语音后对所听到的句子的理解难易程度打分,评价 标准如表1 4 所示。 表1 4 听觉努力度评价标准 得分 评价 5 完全放松 4 需要集中注意,努力可忽略 3 需要适中的努力倾听 2需要相当的努力倾听 l完全无法理解 为了扩展对编码语音客观质量评估的范围,】t u 可开始研究发展可用于评估由传输信 道误差引起衰退的语音信号的方法,传输信道误差包括移动网络中的比特误差、a t m 网 络中的信元丢失、互联网电话系统中的包丢失等等。1 9 9 8 年,一个基于归一化块测度( m n b m e a s u r i n gn o r m a l i z i n gb l o c k s ) 的可选系统作为附件添加到p 8 6 1 中。m n b 是在考虑昕音 过程的基础上,采用m n b 方法来模拟人的感觉判断过程,使得客观评价与主观评价的相 关度( 即一致性) 较高。它可用于评估比特误差和帧丢失,也可用于评估多种语音编解码 器。听者对谱在时域和频域均分布离散、跨度很大的语音的反应各不相同,m n b 方法正 是基于此。因此,为了对语音进行评估,对不同类型的失真有最大程度的感知一致性,需 6 南京邮电大学硕士研究生学位论文第1 章引育 要对多熏时域和频域进行分析。m n b 方法包括两种铡度类型,一种是t m n b ( t u n e m e 鼬u r i n gn o r m a l i z i n gb l o c k s ) ,另一种是f m n b ( f r e q u e n c ym e a s u r i n gn o r m a l i z i n g b l o c k s ) 。 1 3 2 前期模型的不足 编解码评估模型,例如p s q m ,存在局限性,使得当它们在特定应用特别是在包括线 性滤波器或具有时延变化的系统中产生的结果不可靠。这些影响,再加上一定类型的编码 失真、包丢失和背景噪声,就是引起b s d ,p s q m 和m n b 等早期模型产生不精确得分的 原因。因此r r u t1 2 研究组进行了一项实验来找到一种新的模型,以期能适应更广泛的 编解码器和网络情况,具有更好的性能和表现。在比较中,p a m s 和p s q m 9 9 ( p s q m 的 更新和扩展版本) 两种算法的性能最好,然后就结合了这两种算法产生了一个新的模型, 叫做感知语音质量评估( p e s q :p e r c e p 札m l e v a l u a t i o n o f s p e e c h q u a l i t y ) 。2 0 0 1 年2 月p e s q 被确定为e 8 6 2 建议。 早期模型具体的不足如下所示: 1 可变时延a 大的时延削弱了双向通话,因此使端到端的时延最小化是非常有必要 的。而基于包的传输会导致每个包都有不同程度的时延,因此很需要能够平滑不 周时延、产生连续的声音流的缓冲器。缓冲器又是增加端到端时延的一个重要因 素,因此有必要在缓冲器的长短与包丢失率之间找到一个平衡点。编解码评估模 型例如p s q m 、m n b 对可变时延的敏感度很高。当时延在语音静默期间交化时, 2 0 m s 的时延变化会导致p s q m 分下跌i m o s 分,而对于m n b ,5 m s 的时延变化 就会导致1 m o s 分的下跌。 2 线性滤波。在通信系统的很多部件中都用到大量的线性滤波器。用于端到端声音 系统评估的感知模型必须提供较小的线性失真,这个效果通常通过补偿拉近参考 信号与衰减信号来达到。p a m s 、p s q m 9 9 使用了部分补偿,并计算由此产生的 残留误差lp e a q 使用了全部补偿,由此产生的线性失真作为一郝分算入最终的 主观m o s 分的衰退。p s q m 、m n b 没有充分考虑滤波效应。在滤波前后的表现 相差甚远。 3 可变增益。虽然在现在的电话系统中不常用,但是有时语音还是要经过低频振幅 调制。它一般伴随着自动增益控制。这么做的目的是消除语音在不同国家的网络 7 南京坤电大学颈士研究生学位论文 第1 章引言 中传输时设备引起的损耗产生的影响或电平变化的影响。背景噪声和声音电平上 的正常变化都会引起增益的变化,而自动增益控制能起到的作用很有限。m n b 从根本上忽略了调制。p a m s 只对增益变化发生在语音的静默期时进行计算并消 除,而对于发生在活动期的增益变化只进行铡量。p s q m 、p s q m 9 9 逐帧追踪包 络的变化,消除延迟效应来保证计算增益变化引起的失真误差。 1 4 p e s q 简介 图1 3 为p e s q 的原理图。开始时两个信号都通过电平调整,调整到一个标准的听觉 电平,再用输入滤波器模拟标准电话听筒进行滤波( i r s 滤波) 。这两个信号要在时间上 对准,并通过听觉变换( 即感知模型) 转换为内部表示。这个变换包括:通过加窗的快速 傅立叶变换从时域转换到频域;对系统中线性滤波和增益变化的补偿和均衡;把巴克谱映 射到响度级。参考语音信号与退化语音信号的变换之阃的差别就是由扰动来表示。扰动过 程中提取出两个失真参数,在频率和时间上总和起来,映射到对主观平均意见分的预测。 扰动过程包含以下过程:计算干扰密度;不对称处理:时频干扰的总计。在有些情况下, 时间定位可能不能正确地跟踪时延的改变,这样会导致每部分的时延都错了。用两信号交 叉互相关的极大值来算出新的时延值,对每个错误的部分重新定位,重新计算干扰值。在 重定位以后再总计瞬间和整个信号的性能。 时间捆 调整 和豳隹 t 重新谰瞄吾澜 图1 3 p e s q 原理图 8 南京邮电大学硕士研究生学位论文 第2 章p e s q 算法的预处理 第2 章p e s q 算法的预处理 2 1 测试语音信号的准备 用于客观测试的原始信号可以是真实的声音或者是在e 5 0 协议中定义的人造的声音。 因为e 5 0 协议中定义的人造声音特性综合了包含汉语在内的二十种人类不同语言,它对 客观估计语音质量非常有用。但当一个讲话者属于某种特定语言时,推荐使用真实的声音。 当真实的声音用于客观测试时,根据e 8 3 0 协议它们将被记录并经过电平调整。推荐 每次测试最少需要两个男的和两个女的讲话者。如果讲话者的所属地作为一个测试的因 素。建议使用更多的讲话者:8 个男声,8 个女声和8 个孩子。 当遵守p 5 0 协议的人造声音用于客观测试时,推荐同时使用男女人造声音。这些信 号将透过一个滤波器,它具有类似电话听筒的频率幅度均衡特性。 2 1 1 对原始语音资料的具体要求 1 原始语音资料应包含由静默所隔开的语音脉冲,静默代表人说话中的自然停顿, 至少需要l s 。尽管不同语言各不相同,语音脉冲的持续时间典型为1 3 s 。特定的 声音激活探测器只对2 0 0 m s 以上的静默期敏感。语音的激活期应占总语音长度的 4 0 - 8 0 ,对于8 s 的原始语音资料来说,即最小3 2 s 的语音激活期,尽管不同 语言也各不相同。 2 p e s q 对参考语音和退化语音做电平调整时用的是均方根电平。如果语音的开始 与结尾有很长时间的静默,那么电平调整的结果就会受影响。我们建议语音的开 头与结尾的静默最小为0 5 s ,以保证能有足够的时间来调整参考语音与退化语音 同步。如果系统的延迟较大,那么允许语音的开头与结尾的静默最大为2 s 。 3 原始语音资料应包含由静默隔开的句子对,持续8 s 左右,句子应是有意义的,句 子间是没有联系的,尽量不要包含很多短的语句,例如快速数数;有些情况下可 能要用包含3 - 4 个句子的语音信号,也就是1 2 s 左右。p e s q 算法可应用于最长 3 0 s 的语音。在现场的实地测试中,语音要稍短,至少需要持续3 2 s 。 4 参考语音( 即原始语音材料经过频率整形,直接用于p e s q 算法) 存储时的电平 9 南京邮电大学硕士研究生学位论文 第2 章p f s q 算法的顶处理 应至少达到- 3 0 d b o v 。以避免峰点削减和量化失真。其中d b o v 定义如下:zd b o v = y d b m 0 + c 。对于a 率编码系统,c 的值为- 6 1 5 d b ,对于率编码系统,c 的 值为- 6 1 $ d b 。 5 如果一个环境需要在长周期上测试,那么划分语音为8 - 2 0 s 长短的段落,对段落 进行单独的p e s q 处理是比较合适的。这么做还有附加的好处:可以将同一个语 音信号在各个测试环境下使用,尽管在各个测试环境下的时间变化将会很明显。 6 参考语音信号与退化语音信号应以8 k h z 的抽样率、1 6 b i t 的线性p c m 编码的格 式存储。p e s q 同时支持8 k h z 和1 6 k h z 的抽样率。这时的语音信号不能再受到 由不必要的量化、硬限幅削减或再抽样引起的多重失真。 2 1 2 退化语音特性的计算 退化语音信号是相对于待测系统输入信号的输出信号,它包含了待测系统一切测量设 备接口的影响和作用。以下是需要计算的退化语音的具体特性: 1 参考语音与退化语音的活动期的差别。p e s q 对参考语音和退化语音做电平调整 时用的是均方根电平,因此如果语音丢失或静默被添加或消除,p e s q 算法所得 到的结果就是错误的。如果退化语音中的话音被删去或有些部分被消音,那么它 在电平调整中就会被调整到比实际大的电平上;如果静默被消除了,那么在电平 调整中就会被调整到比实际小的电平上。这些因素都影响退化语音的干扰计算结 果,从而影响客观评估的结果。如果参考语音与退化语音之间的活动期的差别超 过2 5 ,客观评估的结果就会产生最著的偏差,特别是语音的大部分被静默取代。 2 语音电平。退化语音存储时的电平应至少达到3 0 d b o v ,以避免峰点削减和量化失 真。p e s q 算法不能对接收或听觉电平进行评估。 3 参考语音与退化语音开头与结尾静默期的差别。p e s q 对参考语音和退化语音做 电平调整时用的是均方根电平。如果语音的开始与结尾有很长时间的静默,那么 电平调整的结果就会不理想。如果参考语音与退化语音开头与结尾静默期的差别 超过2 0 ,这就会变成一个很严重的问题。另外,p e s q 不考虑发生在语音活动 期之前及以后的任何失真。语音信号的电平最初达到5 0 d bs p l 时的点称为语音 活动期的起点,最后达到5 0 d bs p l 的点称为语音活动期的终点,起点到终点之 间称为语音的活动期。 1 0 南京邮电大学硕士研究生学位论文 第2 章p e s q 算法的预处理 2 2 频率整形 频率整形包括滤波和电平调整两部分。 原始语音材料需要经过一个有合适的频率特性的滤波器来模拟电话机的发送频率特 性,并进行电平补偿。先计算信号的平均活动语音电平,然后把电平调整到2 0 d b m 0 ,即 2 6 d b o v 。由此得到的语音就称为p e s q 算法可直接使用的参考语音信号。这样的语音信 号能够适当的表现出电声学特性。我们用修正的i r s 滤波系统来模拟电话机发送频率特 性。修正的i r s 滤波系统充分考虑了原始语音信号的特性,得到的语音信号可作为电话 机终端输出再反馈到网络中去。关于i r s 滤波的具体算法介绍,详见本文3 1 2 章节。 2 3 背景噪声的附加 有可能用p e s q 来评估带有背景或环境噪声的语音传送系统的质量( 例如汽车声和街 道的噪声等等) 。因为噪声和语音一样都需要通过一个和修正的i r s 滤波系统发送特性相 同的滤波器来进行电平调整,这对低频信号例如汽车噪音尤其重要,低频信号经过电话听 筒特性滤波后会严重削减,因此噪音应当在经过待测系统前加入。因为主观测试中绝对等 级评定( a c r ) 会受到嗓音及编解码失真的干扰,p e s q 充分考虑到这一点,因此用于 p e s q 算法的参考语音信号必须是干净的,而噪音必须在参考语音通过待测系统前加入。 p e s q 允许包含噪音的反馈信号输入。无噪音和有噪音加入的处理过程见图2 1 、2 2 a 图2 1 干净语音的测试 噪声 图2 2 加噪声的语音测试 所加噪声必须足够小以满足语音存储的要求。也可以对参考语音信号添加振幅为0 的静默,以满足对语音信号的长度、活动瓤、激活比等构造方面的要求。 如果测试路径或测试装置本身产生额外噪音,那么要对参考语音人为的加入一段电平 为一7 5 d b o v 的1 6 b i t 线性p c m 编码格式的白噪声。噪声必须在0 4 0 0 0 h z 频率范围内。添 加这样的噪声不仅不会对p e s q 的结果产生不良影响,而且会有效地消除噪声对最终得分 的影响。因此,在对语音信号进行频率整形后添加噪声是很重要的。 2 4 测试参数的选择 多种测试条件与质量指标会影响主客观评估过程。i t u tp 8 3 0 协议列举下列影响主 观评估的因素: 1 编解码器的输入语音电平 2 主观试验中的听觉电平 3 发声者( 包括多重的同时讲话的发声者) 4 在编解码器问的传输通道中产生的误码 5 编解码器有多于一种比特率的工作模式下的比特率 6 代码间的转换 7 编译码器比特率不符( 适用于编解码器有多于一种比特率的模式) 8 发送方的环境噪声 9 网络消息信号( 如带内信令信号) 作为编解码器的输入 l o 音乐作为编解码器的输入 p e s q 可适用其中的l ,4 ,5 ,6 和8 ,其它的条件在客观评估中的应用还正在研究中。 1 2 南京邮电大学硕士研究生学位论文第3 章算法原理分析 第3 章算法原理分析 3 1 电平与时间校准预处理 3 1 1 系统增益的计算 因为各个待测系统的增益差别一般比较大,而且对参考信号没有确定的校准电平,所 以有必要将二者调整到统一、恒定的响度上来。p e s q 设定首选的听觉响度为7 9 d bs p l 。 d bs p l 是对声压级s p l ( s o u n dp r e s s u r el e v e l ) 的量度方法,声压级是信号声压和裸声 参照点声压比率的测度。裸声是指入耳听觉曲线上的感知阙值点,该听觉阈值随频率变化, 在声谱中也不是线性的,但在l k h z 单音处获得的值被当作参照值,这也是人耳的最大敏 感频点。按照声压级定义,规定l k h z 单音对应声压值:所= 2 0 只,作为声压级别s p l 的参考点0 d bs p l 即基准声压级,也是一般人耳听觉的感知起点,信号的声压级别计算 公式为: 肼乜= 1 0 1 0 9 上 ( 3 1 ) p , 其中p 为语音信号的声压,p ,为参考声压即听觉阈值,佴= 2 0 u p a ,人耳可大约听到 2 0 e o 一2 0 只的声音,1 只= 1 n m 2 ,即听阐o - 1 2 0 d bs p l 。 响度也可以用声强。即单位面积上的声波能量来平行表示,公式同( 3 1 ) ,但定义参 考点0 d b 声强p r 的绝对大, j , y u :1 0 4 6 w c m 2 ,在这种情况下若建立人耳的疼痛阈值s p l x , 它应该是lw i m 2 的能量,即s p l x = 1 2 0 d b 。 先对参考信号删和退化信号r ( o 进行滤波:低于2 5 0 h z 的被滤掉;在2 5 0 2 0 0 0 h z 之间是平直的;高于2 0 0 0 h z 的符合以下衰减规则( 2 0 0 0h z ,0d b ) , 2 5 0 0h z ,od b 。 3 0 0 0 h z ,- 1 0 d b , 3 1 5 0h z ,一2 0d b , 3 5 0 0h z ,一5 0d b ) , 4 0 0 0h z 及以上, 一5 0 0d b ) ) 。然后计算下滤波以后的参考信号和退化信号的均方值,对均方值进行比较, 不相等的话就把删和y 调整为恒定的电平。电平调整后输出题似和r s ( t ) 。 南京邮电大学硕士研究生学位论立 第3 章算法甄理分析 第3 章算法原理分析 3 1 电平与时间校准预处理 3 1 1 系统增益的计算 因为各个待测系统的增益差别一般比较大,而且对参考信号没有确定的校准电平所 以有必要将二者调整到统一、恒定的响度上来。p e s q 设定首选的听觉响度为7 9 d bs p l 。 d bs p l 是对声压级s p l ( s o u n dp r e s s u r el e v e l ) 的量度方法,声压级是信号声压和棵声 参照点声眍比率的测度。裸声是指人耳听觉曲线上的感知闽值点,该听觉闽值随频率变化 在声谱中也不是线性的但在l k h z 单音处获得的值被当作参照值,这也是人耳的最大敏 感频点。按照声压级定义规定l k h z 单音对应声压值:p ,= 2 0 u p , ,作为声压级别s p l 的参考点0 d bs p l 即基准声压级,也是一般人耳听觉的感知起点,信号的声压级别计算 公式为; s p l = 1 0 l o g 卫 ( 3 i ) n 其中p 为语音信号的声压,p ,为参考声压即听觉闽值,p ,= 2 0 p o ,入耳可大约听到 2 0 u e o - 2 0 只的声音,1 只= l n m 2 ,即听阚0 - 1 2 0 d bs p l 。 响度也可以用声强,即单位面积上的声波能量来平行表示,公式同( 3 1 ) ,但定义参 考点0 d b 芦强研的绝对大小为:1 0 “w e m 2 ,在这种情况下若建立人耳的疼痛阅值s p l x , 它应该是l 矿m 2 的能量,即s p l x = 1 2 0 d b 。 先对参考信号删和退化信号刑进行滤波:低于2 5 0 h z 的被滤掉;在2 5 0 2 0 0 0 h z 之间是平直的:高于2 0 0 0 h z 的符合以下衰减规则( 2 0 0 0 h z ,0 d b , 2 5 0 0 h z ,- 5d b , 3 0 0 0 h z ,一1 0 d b , 3 1 5 0h z ,一2 0 曲 , 3 5 0 0h z ,一5 0d b ) ,f 4 0 0 0h z 及以上, 一5 0 0d b l ) 。然后计算一下滤波以后的参考信号和退化信号的均方值对均方值进行比较, 不相等的话就把田砂和竹u 调整为恒定的电平。电平调整后输出删和r s ( o 。 不相等的话就把x o ) 和,御调整为恒定的电乎。电平调整后输出x s ( t ) y s ( t ) 。 南京邮电大学硕士研究生学位论文 弗3 章算法原理分析 3 1 2i r 8 滤波 听觉测试中需要使用i r s ( 即中间参考系统) 或修正的i r s 接收滤波系统来模拟实 际电话机的接收频率特性。一个语音质量评估的感知模型需要考虑这个因素来模拟测试 主体通过电话手柄实际听到的语音信号。所以,对参考语音信号和退化语音信号进行仿 i r s 滤波的滤波器模型就有必要计算。下面详细介绍了i r s 滤波系统。 在r r u tp 4 8 中定义了i r s 为中间参考系统。i r s 的基本组成包含: 1 发送部分:发送部分定义为从发话者手柄的麦克风a 到连接介面的j s 间的一段。 当发送端建立并校准后,j s 点对于a 端的全电阻回波损耗在频率范围2 0 0 - 4 0 0 0 h z 内不能低于2 0 d b ,在频率范围1 2 5 - 6 3 0 0 h z 内不能低于1 5 d b 。 2 接收部分:接收部分定义为连接介面j r 到听话者手柄耳机b 间的一段。当接收 端建立并校准后,j r 点对于b 端的全电阻回波损耗在频率范围2 0 0 - 4 0 0 0 i - - i z 内不 能低于2 0 d b ,在频率范围1 2 5 6 3 0 0 h z 内不能低于1 5 d b 。 3 连接部分;为了保持响度平衡,能够检测侧音,i r s 的连接部分应该包含能告知 发射部分到接收部分衰减值的部件,还应包含具有6 0 0 欧姆电阻,可调范围不低 于1 0 0 d b ( 例如量程:1 0 1 0 曲+ 1 0 ld b + 1 0 x0 1d b ) 的衰减器。该衰减 器的量程还要具有一定的余地,以被永久的植入设备中或接上电源工作时能正常 使用,此余地应不小于总量程的l 或o i d b 。无论有没有附加的电路元件,整 个连接部分的回波损耗在频率范围2 0 0 - - 4 0 0 0 h z 内不能低于2 0 d b ,在频率范围 1 2 5 6 3 0 0 h z 内不能低于1 5 d b 。 i r s 滤波系统组成如图3 1 所示: i ili 麦克岔卜_ f _ 七_ 图3 1 i r s 滤波系统组成 i t u - tr e c o m m e n d a t i o np 4 8 中给出了i r s 滤波系统正式的发送和接收部分的电压 1 4 堕塞堕曼奎兰璺主要壅生兰堡堡兰 塑! 兰苎婆堕墨坌堑 ( v ) 、声压( p a ) 及转换灵敏度标称值,见表3 i 。表3 2 给出了实际测试系统对应的频 率灵敏度特性曲线的容许上下误差界限。 表3 1i r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论