（通信与信息系统专业论文）aac网络音频流的包层质量评价方法.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：64 大小：2.48MB 积分：0 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

（通信与信息系统专业论文）aac网络音频流的包层质量评价方法.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 y l l l l l 2 1 1 1 l 0 l l l l l 6 6 1 1 1 1 1 1 1 1 1 7 2 圳3 川3 删在网络音频应用中，为了满足网络音频业务服务质量的要求，给消费者提供更好的音频质量体验，需要对网络音频质量进行实时监测。由于丢包严重影响网络音频序列的质量，评价网络丢包对音频质量的影响是网络音频质量评价的关键。本文针对网络音频的特性，研究包层的音频质量评估方法。论文通过大量的实验研究音频帧质量对音频序列质量的影响，提出了适用于互联网( i n t e m e t ) 、有线数字电视网( c d t ) 等不同网络应用环境，且能够有效反映不同丢包模式的时域联合评估模型。论文首先针对丢失包对音频帧质量的影响，分别研究丢失帧的直接影响及其错误传播的影响，并结合音频序列的压缩质量对不同损伤程度音频帧的质量进行预测，进而通过提出的时域联合方法预测小段音频序列的质量。为了准确量化丢包对音频序列质量的影响，本文通过二级时域联合小段音频序列质量的方法对整个音频序列的质量进行预测。实验结果表明，时域联合方法可获得较好的性能。本文进而将时域联合模型应用于c d t 网络音频流，并深入研究广泛应用于该网络中 is 包的结构和功能，提出了基于t s 包的音频帧质量预测方法，进而使用二级时域联合的方法预测音频序列的质量。实验结果表明，所提出的时域联合模型也获得了较好的性能。关键词：网络音频质量评估包层模型r t pt s 压缩失真时域联合模型 a a c 网络音频流的包层质量评价方法 a b s t r a c t a b s t r a c t t os a t i s f yt h er e q u i r e m e n to fh i g hs e r v i c eq u a l i t yo ft h en e t w o r k e da u d i oa n d p r o v i d ea d v a n c e de x p e r i e n c ef o rc o n s u m e r s ，i ti sn e c e s s a r yt om o n i t o rt h ea u d i oq u a l i t y i nr e a l t i m ei nt h ea p p l i c a t i o no fn e t w o r k e da u d i o s p a c k e t - l o s so v e rt h en e t w o r kh a sa s e r i o u se f f e c to nt h ea u d i oq u a l i t y , a n dt h e r e f o r ei ti si m p o r t a n tt oe v a l u a t et h ed i s t o r t i o n o ft h et r a n s m i t t e da u d i os t r e a mc a u s e db yp a c k e tl o s s a c c o r d i n gt ot h ec h a r a c t e r i s t i c s o fn e t w o r k e da u d i o ，t h i st h e s i sf o c u s e so np a c k e t - l a y e ra u d i oq u a l i t ya s s e s s m e n t t h r o u g hal a r g en u m b e ro fe x p e r i m e n t s ，t h ei m p a c to fe n c o d e df r a m e so nt h e o v e r a l la u d i os e q u e n c ei se v a l u a t e d b a s e do nt h eo b s e r v a t i o n s ，at e m p o r a lp o o l i n g m o d e li sp r o p o s e dt op r e d i c tt h ea u d i oq u a l i t yf o ra p p l i c a t i o n so v e rt w od i f f e r e n t n e t w o r k s ，i e ，t h ei n t e m e ta n dt h ec a b l ed i g i t a lt e l e v i s i o n ( c d t ) t h ep r o p o s e dm o d e l i sa b l et oe v a l u a t et h es u b j e c t i v e e x p e r i e n c eo fc o n s u m e r so nv a r i o u st y p e so f p a c k e t l o s s c o n s i d e r i n gt h ei m p a c to fp a c k e t - l o s so nae n c o d e df r a m e ，t h ed i s t o r t i o n s d i r e c t l yc a u s e db yp a c k e t - l o s sa n dd u et oe r r o rp r o p a g a t i o na r ea n a l y z e dr e s p e c t i v e l y , b a s e do nw h i c ht h eq u a l i t yo fv a r i o u sf r a m e sa r ep r e d i c t e d t h e nt h eq u a l i t yo fa s e g m e n to ft h es e q u e n c ei so b t a i n e du s i n gt h ep r o p o s e dt e m p o r a lp o o l i n gm o d e l f i n a l l y , f o rq u a n t i f y i n gt h ei m p a c to fp a c k e t l o s so nt h eo v e r a l la u d i oq u a l i t y , t h i sp a p e rp r e d i c t s t h ea u d i oq u a l i t yt h r o u g h2 - l e v e lt e m p o r a lp o o l i n g e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e p r o p o s e dt e m p o r a lp o o l i n gm o d e li se f f e c t i v e t h ep r o p o s e dt e m p o r a lp o o l i n gm o d e li st h e na p p l i e dt oe v a l u a t et h eq u a l i t yo f n e t w o r k e da u d i os t r e a mo v e rc d t b ya n a l y z i n gt h es t r u c t u r ea n df u n c t i o no ft s p a c k e t sw i d e l yu s e di nc d t , a n o v e lf r a m eq u a l i t ya s s e s s m e n tm e t h o ds u i t a b l ef o rt h e t sp a c k e ts t r e a mi sp r o p o s e d ，b a s e do nw h i c ht h ea u d i oq u a l i t yc a nb eo b t a i n e db y 2 - l e v e lt e m p o r a lp o o l i n gm o d e l t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h ea d a p t e d t e m p o r a lp o o l i n gm o d e lh a sa l la d v a n c e dp e r f o r m a n c e k e y w o r d s ：n e t w o r k e da u d i oq u a l i t ya s s e s s m e n t p a c k e t l a y e rm o d e l r t p t s c o d i n gd i s t o r t i o nt e m p o r a lp o o l i n gm o d e l a a c 网络音频流的包层质量评价方法第一章绪论第一章绪论 1 1 网络音频流质量评价近年来，随着宽带的普及和网络技术的快速发展，音频( 高保真的宽带音频信号) 服务已不再局限于传统的广播业务，而是逐渐扩展到生活的各个领域，如音视频点播等娱乐活动，以及互联网和移动终端上形成的各种新兴音频服务。随着超大规模集成电路和通信技术的发展，移动用户在线收听、下载以及交互式的音频业务逐渐得到广泛应用。2 0 1 1 年1 2 月1 日，中国下一代广播电视网在上海示范网正式启动百万户运营，三网融合的进程得到进一步推进。下一代广播电视网是有线无线相结合，全程全网的新型网络，也是三网融合的示范网络，可以给消费者提供海量的网络音频资源，为网络音频服务的发展提供了更广阔的空间。由于音频业务消费者对音频的主观感受主要取决于音频的质量，因此在网络多媒体迅速发展的背景下，如何对网络音频流的质量进行便捷、有效的评估，已经成为网络音频服务中一个迫切需要解决的重要问题。为了提供用户满意的音频服务，必须对网络音频的质量进行实时监控，以便及时采取相应的措施进行监控和调节，以保证网络音频服务的正常运行，从而保证网络音频的服务质量。。此外，网络音频质量评价对于音频业务的推广也具有重要意义。显然对于一般消费者而言，可能并不了解网络音频压缩、处理等复杂的技术细节，所以运营商只能通过质量评价的最终结果影响音频消费者的决定。因此，如果通信设备制造商能够提供有说服力的网络音频质量评价结果，对于其产品的销售具有很大的推动作用；另一方面，对于运营商，特别是无线网络运营商，网络音频业务还属于新型业务，网络音频质量的评价数据可以用于其业务可行性分析、推广和宣传，以及在运营中预测客户满意度等。在这种环境下，有效地音频质量评价是网络音频服务中必不可少的一项重要技术。国内外许多学者都致力于对网络音频质量评价的研究，并先后给出音频质量主观评价和音频质量客观评价的算法和标准。国际电信联盟的无线标准( i t u r ) 专门按照主、客观方法为音频质量评价制定了相应的建议【1 ，2 1 。目前已有的音频服务质量( q o s ，q u a l i t yo fs e r v i c e ) 评价算法主要限于网络层和传输层的研究，如带宽、延时、抖动、丢包率等网络性能参数。然而，音频信号传输过程中会产生较大的数据量，导致音频服务需要占用较多的带宽，因此通常采用压缩的方法降低音频流的传输码率。但压缩后并在网络信道中传输的音频流易受信道性能的影响，而且数据包丢失对音频质量的影响与丢失包的位置及音频 2a a c 网络音频流的包层质量评价方法的内容密切相关，使用传统的网络性能参数不能准确的反映真正的网络音频的体验质量q o s 。在音频应用和服务中，音频的最终宿主是人，因此主观质量评价最接近于人的感觉，可以作为最终的评价结果。但是，对音频信号进行一次正式的主观测试需要消耗大量的人力、物力和时间，而且测试的结果与听音环境以及听音者当天的生理和心理状况等有关，实现起来步骤繁琐，实时性不好。因此，虽然主观测试可以准确的反映消费者实际的听觉感受，但并不适合于网络音频质量的实时评价。由于主观评价方法的不足，客观质量评价算法的优势凸现出来，使其更适用于网络音频业务质量的评价。随着人耳听觉特性及认知机制模拟技术的逐渐成熟，音频客观质量评价算法也得到了迅速的发展。目前，大多数有效的音频客观质量评价算法都是基于人耳听觉特性的算法，该类方法都是分析解码信号和原始信号的听觉差异，进而得出质量评价的结果，例如p e s q ( p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y ) ，p e a q ( p e r c e p t u a le v a l u a t i o no f a u d i oq u a l i t y ) 。而对于网络音频业务，网络节点的计算性能有限，且需要同时处理大量的数据，因此不能获取原始参考信号，且不允许对音频流进行解码，所以该类方法不适合经常用于网络音频的质量评价。因此，包层分析评价模型是网络音频质量评价的研究热点。目前，i t u t 正致力于包层评价模型e n a m s 的标准化进程【4 1 。 1 2 研究内容本文主要研究基于包层分析评价模型的网络音频质量评价方法。音频质量评价方法通常分为两大模块：音频压缩失真的评价和音频丢包失真的评价。其中，音频的压缩失真是研究音频丢包失真的基础，网络丢包是造成音频质量下降的关键因素。因此，本文的研究重点是如何在网络的中间节点评价包丢失环境下网络音频流的质量，主要内容有以下三个方面：在网络节点评价音频流的质量，需要解析客户端接收的数据包，从包头中提取有用信息，因此首先需熟悉常用的音频流传输协议栈。在此基础上，本文给出了基于包层参数的音频质量评价的基本框架，并重点介绍了在不同的网络应用环境下如何提取数据包头中的有用信息，以及如何使用包头信息计算丢包率、检测音频帧类型等音频质量评价所需信息的处理过程。音频的质量与数据包丢失的密度及频率密切相关，建立包层分析评价模型需要考虑包丢失特性对音频质量的影响。研究表明，突发丢包对人耳的听觉感受影响大。因此，本文在互联网和有线数字电视广播网环境下分别提出了由包层参数检测音频帧类型的算法，并根据帧类型的检测结果和音频序列的压缩质量对各音频帧的质量进行预测。第一章绪论 3 本文研究了不同内容音频序列经不同状况网络传输后音频质量的受损程度，提出在小段音频帧内使用时域联合音频帧质量的受损程度，并在此基础上研究二级时域联合各音频段的损伤程度和音频质量之间的关系，最后构建了包丢失环境下评价网络音频流质量的客观模型，并对模型的性能进行了验证。 1 3 论文组织结构本论文包含四章，其组织结构如下：第一章绪论。主要介绍网络音频质量评价的背景及意义。第二章网络音频的质量评价。介绍音频质量主、客观评价算法及其意义，并重点介绍了几类无参考音频质量客观评价模型。第三章网络音频质量评价的时域联合模型。介绍了基于r t p u d p i p 传输协议栈的音频流的封装结构，提出应用包头信息分析音频帧类型检测的方法，及音频帧质量的预测方法，并提出了凸显包丢失影响的包层分析评价模型网络音频质量评价的时域联合模型。最后，给出了实验室环境下，模型性能的测试结果及数据。第四章时域联合模型在有线数字电视网中的应用。介绍了广泛应用于有线数字电视网络中的传输流t s 的物理意义和t s 包的封装结构，在此基础上提出了适用于该网络的音频帧类型检测方法，并将第三章提出的网络音频质量评价的时域联合模型应用于有线数字电视广播网。结束语总结全文的工作内容，并展望了今后的研究工作。 4 a a c 网络音频流的包层质晕评价方法第二章网络音频的质量评价 5 第二章网络音频的质量评价 2 1 引言随着高速宽带网络的迅速发展和广泛应用，以及音频处理和压缩技术的不断进步，使得基于i p ( i n t e m e tp r o t o c o l ，因特网协议) 数据包交换的网络音频服务已经得到了广泛的应用。随之而来的是消费者对网络音频服务质量提出了更高的要求，而网络音频服务质量的评价取决于音频收听用户对音频的主观感受。因此研究与人耳主观感受一致的音频质量评价技术，已经成为网络音频业务发展的迫切需要。由于音频业务的服务质量直接影响到消费者对此业务的体验感受，并在根本上决定着该产业的发展，所以随着音频业务的逐渐普及，音频质量评价技术逐渐受到了人们的重视，国际标准化组织如i t u t 正致力于各类音频质量评价的标准化工作。因此，对音频信号评价方法的研究在不断深入。下面分别对音频质量的主观评价和客观评价作简单介绍。 2 2 音频主观质量评价对音频信号的主观评价是指在一个特定的且受控的测试环境中，让一批非专家类型的受测者连续收听一系列的测试音频序列，并用不同的方法对音频的质量进行打分，最后求得平均分值作为评价结果。主观评价结果的优点是接近于人的感觉，可以作为最终的评价结果。缺点是需要消耗大量的入力、物力和时间，而且测试的结果还与测试者当天的状态、情绪以及之前受到的相关听音训练程度等有关。 2 2 1 常用的主观评价方法目前比较常见的音频质量主观评价方法包括m o s ( 平均意见分：m e a no p t i o n s c o r e ) 、d r t ( 音韵字可懂度测量：d i a g n o s t i cr h y m et e s t ) 、d a m ( 满意度测量： d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ) 和3 s h r 2 b ( 三激励一隐参考一双盲：3 s t i m u l a t e h i d e nr e f e r e n c e 2b l i n d 3 s h r 2 b ) 等方法。下面分别介绍： m o s 方法f 5 ，6 】：该评分方法采用由测试者直接比较原始音频和编码音频，并按照测试者感觉进行评判或作出评语，该方法使用的评分等级为5 分制，具体的评分分级标准如表2 1 所示。 6 a a c 网络音频流的包层质量评价方法表2 1 音频主观质量评分分级标准平均评分评分尺度质量等级 5 质量很好，没有察觉失真很好 4 可察觉但不可厌好 3可察觉且稍微可厌一般 2 令人厌恶的差 l 非常令人讨厌很差 d r t 7 , s 】：d r t 测试时播放若干对或若干组音韵相近词，再由测试者感觉它们是什么词，然后依据测试者盘对的对错情况打出相应的分数，最终整体可懂度按d r t 的大小来划分。对于英语应用( 2 1 ) 式计算d r t ： d r t ：丝二丝1 0 0 ( 2 1 ) n l 对于中文应用( 1 - 2 ) 和( 1 - 3 ) 式计算d r t ： d r r , = 半( 墨一嘉) ， ( 川，2 ，( 2 - 2 ) y d r t , j r d r t = 旦_ ( 2 3 ) 3 、其中d r t , 表示第i 个测试者的打分，表示测试者的总数，表示发音的总数， r ，表示听对的次数，历表示听错的次数。虽然( 2 1 ) 和( 2 2 ) 式的形式上略有不同，但从本质上都是量化地表达了测试者分辨音韵的能力。 d a m l 8 】：即满意度评价，主要被用于对中、高等音频质量地评价，主要指标有 1 6 个，包含三方面内容。这些指标由听音专家给出，其中最为重要的是整体质量指标，更具体的内容可以参考相关书籍1 9 1 。 3 s h r 2 b i l 】：即三激励一隐参考一双盲评价方法，是目前最为常用的音频信号主观测试评价方法。3 s h r 2 b 首先选取测试信号，每一组都有三段内容完全相同的音频信号，第一段是参考信号，第二段和第三段中有一段是参考信号 ( r e f e r e n c es i g n a l ，r s ) ，另一段式测试信号( t e s ts i g n a l ，t s ) 。让测试者收听每组测试信号，但测试者事先并不清楚后两段中哪一个是参考信号。在开始听音后，测试者通过听音比较后两段中哪一个是参考信号，并按照类似于表1 1 的规则给后两段音频信号打分，其中参考信号打5 分，测试信号打1 5 的某一个合适分值) 。待测试完成后，工作人员对测试者的评分进行处理，得到最终第二章网络音频的质量评价的测试结果s u b j e c t i v ed i f f e r e n c eg r a d e ( s d g ) 。s d g 值是用测试者为实际的测试信号打的分减去实际的原始信号的分得到的，如( 2 4 ) 式所示。式( 2 4 ) 中，r s 和巧分别表示参考信号和测试信号。在测试者对后两段信号判断正确的情况下，s d g 应该在4 之间取值，越接近于0 的s d g 值说明参考信号和测试信号之间的可觉察差异越小，从而说明测试音频信号的质量就好。 2 2 2 主观评价方法的应用在音频应用和服务中，音频的最终宿主是人，因此主观评价是最准确、最接近消费者感受的音频质量评价方法。主观评分不仅适用于传统的模拟系统，也适用于数字音频系统，并在测试编解码系统的性能和评价音频质量客观模型的性能上被广泛应用。然而主观评估也有很多缺点：必须有严格的测试环境，需要考虑大量的影响因素( 收听的环境，序列播放的时间等) ，步骤复杂，持续时间长，代价昂贵，实时性差。由于主观评估方法有这些先天性的缺陷，因而不适合用于当前大多数音频服务系统的开发。为此，人们想到通过客观的方法量化人耳对音频信号的感受过程，从而对音频信号的质量做出评价，下节介绍的客观评价方法就是针对该问题提出的。 2 3 音频客观质量评价由于音频质量主观评价需要消耗巨大地人力、物力和时间，从而难于广泛应用于实际生活中。与之相比，客观音频质量评价方法简单明确，不受时间地点的限制，并且对测试信号的评价结果相对稳定，因此得到了越来越广泛地重视和应用。相对主观评价，客观评价的优势还在于它可以给出音频质量下降的原因，进而促使客观评价方法的改进。主观评价方法，尤其是针对音频信号的评价，一般只给出某一个分值来标识测试者对测试音频信号质量的评价，比较有经验的测试者也往往只能大致给出一些简单的评语；客观评价则可以根据提取的参数，如比特率( b r ：b i t r a t e ) 、丢包率( p l r ：p a c k e tl o s sr a t e ) 、时延、抖动等，分析音频质量下降的原因是压缩失真或丢包失真。这些信息可以让研究音频质量评价方法的学者充分了解音频编解码器的优劣和网络的状态，进而也为他们改进算法提供有力的依据。依据是否需要参考原始音频序列，音频质量的客观评价方法又可以分为 8 a a c 网络音频流的包层质量评价方法有参考和无参考的音频质量评价算法。本文主要研究在网络节点中如何便捷、高效的评价音频的质量，因此本章主要介绍无参考网络音频质量的评价方法。下面只对有参考的音频质量评价算法作简要介绍，详细内容请参见相应的参考文献。 2 3 1 有参考音频质量客观评价从客观评价思想被提出到近几年，随着对人耳接收声音信号过程不断深入的研究，基于信噪比、基于预测、基于谱距离、基于听觉模型等一系列有参考语音质量客观评价方法被相继提出，并在评价语音质量时从最初较低的相关系数发展到最终接近1 的相关系数。表2 2 列出了一些主要的语音质量客观评价方法的相关系数( 其中相关系数参考文献【1 0 】) 。表2 2 主要的客观评价方法及其主客观相关系数r 语音质量客观评价方法主要的评价方法 r 主要的评价方法r 基于信噪比基于l p c 方法 s n ro 2 4 l o g l p c o 3 4 s n r s e g o 7 7 线性反射系数0 4 6 频域分段信噪比 o 9 3 l o gl i k e l i h o o dr a t i o o 4 8 基于谱距离( s d ) 线谱对 0 3 5 s p e c t r a ld i s t a n c e 0 8 0 l o ga r e ar a t i o 0 6 2 频域线性s d o 6 8c d0 9 0 频域l o gs d o 7 0 基于昕觉模型 w e i g h t e d - s l o p es d 0 7 4m s d0 8 6 听觉坐标加权i o g s d 0 7 8b s do 8 9 i n v e r s el o gs d0 7 5m b s d 0 9 5 基于翔颤模型p a q m0 9 4 i lo 6 9p l p o 8 2 c h f0 8 2 p l p - c e p s t r a l 0 8 4 e p r0 8 8p l p - d e l t ac e p s t r a l0 6 7 由表2 2 可以看出，语音信号的客观评价几乎达到了替代主观测试的程度。相对语音客观评价，音频信号的客观评价方法发展较晚，直到2 0 0 1 年，i t u r 为音频信号客观评价制定了国际标准b s 1 3 8 7 及该版本的改进方案b s 1 3 8 7 1 ，该建议又被称为p e a q 2 1 ( p e c e p t u a le v a l u a t i o no f a u d i oq u a l i t y ) ，由该标准预测的音频质量与主观打分的相关性强。随着音频信号感知模型的发展，关于音频信号的客观评第二章网络音频的质量评价 9 价得到了迅速的发展。下面列举了几类较典型的有参考音频质量客观评价算法。 1 基于信噪比的客观质量评价算法：s n r i l l j ( 信噪比法：s i g n a ln o i s er a t i o ) ， s n r s e g i ( 分段信噪比法：s e g m e n ts i g n a ln o i s er a t i o ) ； 2 基于判断模型的客观质量评价算法：d i x ! j ( 干扰索引值法：d i s t u r b a n c e i n d e x ) ，n m r l l 2 】( 噪声掩蔽比法：n o i s e t o m a s k e d r a t i o ) ，o a s e ! 川( 客观音频信号评价法：o b j e c t i v ea u d i os i g n a le v a l u a t i o n ) ； 3 基于听觉模型的客观质量评价算法：p a q m 【l 列( 感知音频质量测量： p e r c e p t u a la u d i oq u a l i t ym e a s u r e m e n t ) ，p e r c e v a l l l 4 】( 感知评价模型： p e r c e p t u a le v a l u a t i o n ) ，p o m i i 5 j ( 客观感知测量：p e r c e p t u a lo b j e c t i v e m e a s u r e m e n t ) ； 4 联合客观音频质量评价算法：p e s a q l l 6 1 ( 音频流感知质量评价，p e r c e p t u a l e v a l u a t i o no fs t r e a m i n ga u d i oq u a l i t y ) ，p e a q l l 7 , 1 8 j ( 音频质量客观评价， p e r c e p t u a le v a l u a t i o no f a u d i oq u a l i t y ) ；尽管有参考音频质量客观评价方法的性能得到了显著的提升，但由于带宽的限制和实时性的要求，网络节点往往无法获取原始参考音频。而且由于网络节点的计算性能有限，不能对音频相关的信息进行解码，从码流中获取的可用于音频质量评估的信息非常少，只能利用t s 、r t p 、u d p 和i p 分组的头信息来进行音频质量评估。因此，国内外学者根据网络中转发节点和接受节点可利用的信息提出了新的客观质量评价方法无参考的音频客观质量评估方法。实践证明，该方法是切合实际的。因为无参考客观质量评价不需要原始音频数据的任何信息，可以直接分析网络音频数据包进而评估其质量。这样就放宽了实时性和网络带宽限制的束缚，使用户在相同条件下获取更好的网络音频服务质量。根据上述内容可以看出，无参考的网络音频质量评估方法已经成为网络音频业务发展的迫切需要。 2 3 2 无参考音频质量客观评价考虑到网络音频质量评估的应用环境，要求在网络中间节点中实时地监控音频流的质量，这就需要对网络节点接受到的数据包进行分析。由于网络节点的分析性能有限，而且通常需要同时处理大量的音频业务，且由于实时性的要求不允许对音频信息进行完全解码，所以适合于此类应用的只有无参考音频质量评价方法。下文将对几种典型的无参考客观评价算法进行介绍。 1 基于p l p l l 9 】的无参考客观评价【2 0 】该模型是比较测试信号和数据库中理想的音频信号，对其差异进行分析，从而预测测试信号的主观分值。应用感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i o n c o e f f i c i e n t s ，p l p ) 训练仅有压缩失真的音频信号库，得到该算法应用的参考码簿。 1 0 a a c 网络音频流的包层质量评价方法计算测试信号的p l p 系数，在参考码簿中寻找和该系数时域平均欧几里得距离最小的参考序列，并将该距离作为音频质量衰减的指示值。 2 应用a n n l 2 1 j ( 人工神经网络：a r t i f i c i a ln e u r a ln e t w o r k s ) 的无参考客观评价音频信号通过基于包的传输网络时，单向传输时影响音频质量的参数，如丢包率、抖动、相邻包之间的间隔、损失分配和端到端时延。应用a n n s ( a r t i f i c i a ln e u r a l n e t w o r k s ) 获得非线性映射函数( 将表征影响音频质量的参数映射到统一的质量刻度内) ，称映射为i n n ( i n t e r s u b j e c t i v en e u r a ln e t w o r k ) 模型。当影响音频质量的参数变化时，研究人是如何进行音频质量评估的。应用a n n s 对人的这种能力进行建模，并实时评估音频或语音的质量。即，影响音频质量的参数变化使接收音频数据产生失真，i n n 可以模拟主观m o s 打分。如图2 1 所示。 ( x l ，v 1 ) ， ( x l ，y j ) ) 墨=x l x 2 ii x 3 x ii x - i iiji 地= y l y 2拍y 4 i n p u t l a y e r h i d d e n l a y e r o u t p u t l a y e r y y ；一y o = 田图2 1 三级前向神经网络结构图发送端负责控制相邻包之间的间隔、编码算法和发送r t p 包，路由器负责控制丢包率、丢失分配、时延和抖动。接收方存储码流信息，并采集相应的可能引起码流失真的参数值。如已获得一固定的a n n ，可以提取a n n 的结构和权重以建立一个简单的模型，它由两部分组成：一、收集网络的状态和参数值；二、已训练好的a n n 获取参数和与其对应的m o s 值。 a n n 是由许多高度联通的神经元组成的一个并行分布辅助处理器。每一神经元要完成两个操作：一、输入矢量和加权矢量彤j 的点积。其中表征该元素和其他元素或外部输入之间连接的有效性；二、将输入非线性映射为一质量刻度， k i = 厂( w o 五) ，厂为非线性非递减连续函数。构造一a n n ，必须选择一种结构和一种学习算法。将采集的n 个样点以输入和输出对表示( ，l ) ，刀= l ，n 。应用已选择的a n n 结构和学习算法构造映射。第二章网络音频的质量评价初始化的权重随机给出，将咒通过下面系统，得到输出响应，计算误差d ，如果他们不一致，根据一般的d e l t a 规则修正a n n 中的权重值：睨( f + 1 ) = 形，( f ) + n a x i ( 2 5 ) 矾，是前一层的神经元j f 与给定层神经元f 之问的关联值，是神经元的输入，刀是表征学习速率的参数，a 是测量误差系数，在输出层g = 匕，隐藏层g 是估计误差。通过这种计算后，该算法最小化所有( ，l ) 对的全局误差。持续上述操作直到全部输入信号能正确的分类，或达到预设定的最小误差值。试验测量语音信号的相关度达到0 9 9 8 2 9 6 。误差率为0 0 3 2 8 9 6 。 3 伪包流替换算法1 2 2 】在尽力传输网络中，传输数据包主要受丢包、乱序、时延和抖动等因素的影响，所以客户端音频的体验质量主要受网络层服务质量的影响。伪包流替换算法是在接收端对传输的数据包打本地时间戳，重新生成包的时域顺序，理论上应用这些数据可以进行解码，然后和参考数据比较，就可以应用p e s q 得到客观预测质量，但问题是当前不能得到参考信号。为解决该问题，首先对应用场景提出要求如下： 1 ) 编码后的音频数据是经过打包后顺序传输的( 根据先后顺序判断是否有包丢失) ； 2 ) 数据的编码方式和打包方式可知( 依靠先验知识或解析包头获取) ； 3 ) 不考虑比特差错( 对目标质量影响很小) 。从包头信息中获取传输音频流的编码方式和打包方法，应用获取的参数对本地参考音频信号( p 5 0 中的经典序列) 进行编码和打包操作，根据本地时间戳和包中的序列号用参考音频流替代测试包流，对参考包流进行解包解码后，和本地原始参考信号进行比较，成功将无参考音频质量评估方法转化为有参考的评估方法。并且该算法的应用不受质量评估算法的限制，可以应用国际标准制定的各种评估算法，如p e s q 、p e a q 等。该方法的优点是：无参考、可应用于现网、不依赖于固定的质量评估模型，而且其性能和i t u tp e a q 算法近似。 4 基于心理感知模型的无参考客观评价【2 3 】该算法的主要思想是：对网络丢包处理过程和恢复过程影响音频质量的因素进行量化，只要获得所有潜在参数的最佳相关变换，并联合变换后的参数按照多重线性回归分析可以得到整体的音频质量评价模型。为了得到该模型，就需要按照一种因子选择技术提取合适的参数。这样可以研究稳健的音频质量评价模型。该算法应用前向参数选择技术：一、选择和己测主观分值有强相关性的参数；二、在消除上述己选参数对质量影响的前提下，选择和剩余分值相关性最强的参数。直到该相关系数返回的t - s t u d e n t 值小于3 时，终止该步骤1 2 4 j ； a a c 网络音频流的包层质量评价方法三、需要避免多重共线性的相互独立的参数。应用2 - s t a t e 吉尔伯特模型模拟在实际网络传输过程中数据包丢包的性能。应用两个状态：成功接收和包丢失分别表示成功、失败传输音频包。两个状态的平均驻留期分别为1 p 和1 q 。其中，p 和g 分别两状态之间的转移概率。应用下面三个参数u l p ( u n c o n d i t i o n a ll o s sp r o b a b i l i t y ) 、c l p ( c o n d i t i o n a ll o s sp r o b a b i l i t y ) 和e b p ( e f f e c t i v eb u r s t i n e s sp r o b a b i l i t y ) 表示： u l p ：卫 ( 2 6 ) p + q c l p = 1 q( 2 - 7 ) e b p = u l p x c l p ( 2 - 8 ) 该模型以u l p 和e b p 为输入，并将其作为控制条件。为使语音质量评估模型有效的提取所需的包层参数，提出一种可以分析丢失段语音特性的新模型。该模型是吉尔伯特模型的推广。该模型有三种状态，无丢包，语音包丢包，非语音包丢包。分别表示语音包成功接收、语音包传输失败和非语音包传输失败。如下图2 2 所示：图2 2推广的吉尔伯特模型对丢失的数据包进行识别，并运用该算法更新即时运行系统的计数器，在终端应用该计数器计算各状态之间的转移概率。由此可以计算参数：语音包和非语音包的平均丢包率、平均突发长度，还可以记录两丢包间的间隙。 0 、1 和2 分别代表上述三种状态，g 中的f 、，表示状态号o 、1 、2 。当接受到一个新的、按顺序到达的且包含语音特性的语音包时，该算法将触发丢失包语音识别和参数提取过程。从接受的包和前面的丢包情况提取语音和非语音的模式。该算法应用序列号识别当前包，并根据上一个处理的包更新当前包的模式。具体计算如下所示： u z p ：鱼! g ! 刍! (2-9), 第二章网络音频的质量评价觇= 鱼肇立鱼 n b t 眦姐只熹哦地只去 ( 2 一l o ) ( 2 1 1 ) ( 2 - 1 2 ) 其中，n b t 表示收到的总包数。最后，应用多重线性回归分析方法量化各丢失语音包对序列质量的影响。应用该算法的丢包可感知评价模型实时的计算与语音序列相关的参数。性能分析研究表明，该算法在相关性和r m s e 上均优于丢包不可感知的评价模型。 5 e m o d e l l 2 5 , 2 6 1 从包层提取各种特性参数，经由e m o d e l 联合处理各特性参数得到传输性能等级系数尺，该系数是对用户体验质量满意程度的量化，等级系数月由下式构成： r = 咒一一厶一t 研+ a ( 2 一1 3 ) 其中，如表示基本信噪比，包括噪声源诸如电路噪声和室内噪声；系数厶是与声音信号同时出现的噪声引入的所有损伤的组合；系数厶表示由延迟引起的损伤；有效设备损伤系数厶屯矿表示由低比特率编解码产生的损伤和信息包丢失引入的损伤；获益系数彳是在接入用户时系统采取的策略使损伤系数得到补偿的量化因子。基本信噪比r o ：咒= 1 5 1 5 ( s l r + n o ) ( 2 - 1 4 ) 其中，d 是各个噪声源的功率和：丝盐生生 n o = l o l o g 1 0 1 0 + 1 01 0 + 1 0 1 0 + 1 01 0 】( 2 1 5 ) c 是所有电路噪声的功率和，全部以0d b r 点为参考。心是由发送侧室内噪声只引起的在0d b r 点的等效电路噪声：么= 只一s l r 一皿一1 0 0 + 0 0 0 4 ( 9 , 一o l r 一口一1 4 ) ( 2 1 6 ) 其中，说尺= 观天+ 慰天。按相同的方法，在接收侧的室内噪声只被转换为一个在0d b r 点的等效电路噪声d ， - o ，= r l r 一1 2 1 + 圪+ o o o s ( & 一3 5 ) ( 2 1 7 ) 心项是由受话器侧音通道引起的只增强产生的“有效室内噪声： r0 0 - l s m ) 匕= 0 + 1 0 l o g i 1 + 1 0 1 0 i ( 2 - 1 8 ) l1 1 4 a a c 网络音频流的包层质量评价方法吆= + r l r ( 2 1 9 ) 通常设定为- 6 4d b m p 。损伤系数厶：系数厶是与声音信号同时出现的噪声引入的所有损伤的和。系数厶进一步分成 is = i 咖+ l s t + i q q - 2 0 ) 厶，表示由于o l r 值太低引起的质量下降，并由下式给出：叫惜晴争 p 2 t ，其中，k = o l r + o 2 ( 6 4 + o 一尉撮) 系数厶表示由非最佳侧音引起的损伤：纠2 1 3 8 卜i 1 + ( 掣) 3 5 蟊陋2 2 ， 3 3 ：3 + 2 9 鼽一i s t m rt t e l r s t m r o o l o g 1 0 其中， = 一 1 损伤系数岛表示量化失真产生的损伤： = 1 5 抛 1 + 1 0 7 + 1 0 z ( 2 2 3 ) 】，= 警4 6 g ，( 2 - 849 2 4 ) 1 5 。 z ：堑一旦，( 2 2 5 ) z = 一一 i z z ) i 3 04 0 、7 g = 1 0 7 + 0 2 5 8 q + o 0 6 0 2 q 2 ，( 2 - 2 6 ) q = 3 7 1 5 1 0 9 ( q d u )( 2 2 7 ) g 幽代表在发送侧和接收侧之间整个连接的q d u 的数量。延迟损伤系数历：表示由于声音信号延迟引起的所有损伤，由三部分时延组第二章网络音频的质量评价 1 5 l d ：l 蕾e +

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）aac网络音频流的包层质量评价方法.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）aac网络音频流的包层质量评价方法.pdf

文档简介

温馨提示

最新文档

评论

相关文档