




已阅读5页,还剩58页未读, 继续免费阅读
(计算机科学与技术专业论文)基于增强学习的网络自适应实时视频传输系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
f 北塞邮电本堂亟堂位论塞 一 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名: 扬壶鲑 本人承担一切相关责任。 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书 本人签名1 1 导师签名r 日期:型堡坐 日期: 2 f ! :墨 j 大问题,如何智能的控制视频编码以适应动态多变的网络状况成为了 热门的研究课题。针对这个问题,本文提出了一个新颖的基于增强学 习的视频编码控制方法,该方法表现出很强的网络自适应特性,取得 了很好的实验结果。 本文的具体研究工作主要包括以下几个方面。首先对实时视频的 编码、传输以及质量评价过程进行了深入的研究,选择h 2 6 4 为编码 格式、r t p 为传输协议,旨在建立一个理想环境下最优的视频传输系 统;然后分析了几种典型网络的时延、抖动以及丢包率等特征,使用 n s 2 构建了仿真网络,并研究了它们对实时视频传输所产生的影响, 同时针对视频终端提出了一些简单实用的改进方式;接着基于以上分 析,重点研究了增强学习算法在实时视频控制中的应用,进而实现了 一个网络自适应的实时视频传输系统,它使用r t c p 反馈的网络信息 以及视频的复杂度来估计当前状态,并智能的调节视频编码的输出码 率;最后在各种网络条件下对该系统进行了验证,经过一段时间的学 习,本系统表现出良好的网络自适应特性,取得了很好的实验结果。 关键词:实时视频传输增强学习自适应视频编码视频质量评价 r e s e a r c ha n di m p l e m e n t a t i o no f r e i n f o r c e m e n tl e a r n i n gb a s e dn e t w o r k a d a p t t i v er e a i j r i m ev i d e ot r a n s p o r ts y s t e m a b s t r a c t b e c a u s eo fb e s t - e f f o r tc h a r a c t e r i s t i co fc u r r e n tn e t w o r k ,i ti sd i 所c u l t t og u a r a n t e et h eq u a l i t yo fr e a l t i m ev i d e ot r a n s p o r t a t i o na n dt h ew a yt h a t c a n a d a p t v i d e o c o d i n gp r o c e s s t o d y n a m i cn e t w o r k c o n d i t i o n s a p p r o p r i a t e l yh a sb e e n o n ec u r r e n tr e s e a r c hf o c u s t h i sd i s s e r t a t i o n p r o p o s e s an o v e l v i d e oc o d i n gc o n t r o la l g o r i t h mt h a ti sb a s e do n r e i n f o r c e m e n tl e a r n i n ga n dt h es y s t e mr e v e a l sg o o dn e t w o r ka d a p t i v e p e r f o r m a n c e t h i sd i s s e r t a t i o nm a i n l yf o c u s e so nt h ef o l l o w i n gw o r k s f i r s t l y , w e c a r r i e do u ta ni n d e p t hs t u d yo nt h ew h o l ep r o c e s so fv i d e oc o d e c ,v i d e o t r a n s p o r t ,a n dq u a l i t ya n a l y s i sd u r i n gw h i c hw ec h o s e h 2 6 4a st h ec o d e c a n dr t pa st h et r a n s p o r tp r o t o c 0 1 b a s e do nt h e s et o o l s ,w eb u i l ta n o p t i m a l r e a l - t i m ev i d e ot r a n s p o r t s y s t e m i na ni d e a le n v i r o n m e n t s e c o n d l y , w ea n a l y z e dt h ec h a r a c t e ro fs e v e r a lt y p i c a ln e t w o r k si nt e r m s o fd e l a y , j i t t e ra n dp a c k e tl o s tr a t e ,a n dc o n s t r u c t e dc o r r e s p o n d i n g s i m u l a t i o nn e t w o r k su s i n gn s 2 w i t ht h e s es i m u l a t i o nn e t w o r k s ,w e s t u d i e dt h ei n f l u e n c eo ft h e s ed if f e r e n tn e t w o r kc h a r a c t e r i s t i c so n r e a l t i m ev i d e ot r a n s p o r tp r o c e s sa n dp r o p o s e ds o m es i m p l eb u ta d v i s a b l e m e t h o dt oi m p r o v ev i d e ot r a n s p o r tq u a li t y t h i r d l y , w ec o n d u c t e da n i n - d e p t h r e s e a r c ho nt h ew a yo fa p p l y i n gr e i n f o r c e m e n tl e a r n i n g a l g o r i t h m t ov i d e ot r a n s p o r tc o n t r o la n di m p l e m e n t e d an e t w o r ka d a p t i v e r e a l t i m ev i d e ot r a n s p o r ts y s t e m t h es y s t e mu t i l i z e dt h en e t w o r ks t a t e i n f o r m a t i o nw h i c hr t c pf e e d b a c k sa n dv i d e oc o m p l e x i t yi n f o r m a t i o nt o e s t i m a t ec u r r e n te n v i r o n m e n ts t a t u sa n da d j u s t e dt h eb i tr a t eo fo u t p u t v i d e os t r e a mo fh 2 6 4c o d e ca c c o r d i n g l y a tl a s tw ec o n d u c t e das e r i e so f t e s to nd i f f e r e n ts i m u l a t i o nn e t w o r k sa n df o u n dt h a to u rs y s t e me x h i b i t e d ag o o dn e t w o r ka d a p t i v ep r o p e r t ya n dp r o d u c e db e t t e rv i d e oq u a l i t yt h a n e x i s t i n gs y s t e m s 3 1 1j m f 框架9 3 1 2 视频编解码器1 0 3 1 3 终端结构改造1 1 3 2 实验网络1 3 3 2 1n s 2 1 3 3 2 2 仿真网络1 4 3 3 视频质量评价工具1 5 3 3 1 测试视频1 5 3 3 2 b v q m 1 5 第四章视频终端优化1 7 4 1u d p 缓冲溢出问题1 7 4 2r t p 缓冲溢出问题1 8 4 3 视频解码优化2 0 4 4 总体架构2 2 第五章网络自适应系统2 4 5 1 典型网络分析2 4 5 2 网络时延适应系统3 0 5 3 网络自适应系统3 3 5 3 1网络情况探测3 5 5 3 2 视频编码器配置及码率控制3 5 5 3 3 基于增强学习的智能控制3 6 i v ,、 1 1 研究背景 第一章绪论 随着技术的飞速发展以及人们生活水平的不断提高,因特网得到了广泛的普 及。与因特网的快速普及相对应,因特网上的新应用也层出不穷,因特网已经从 一个单纯的数据传输网络转交为融合了数据、音频、图像等多媒体信息的综合传 输网。在这个大背景下,许多视频点播与交流网站,如优酷网、土豆网等,都获 得了很快的发展,它们主要向用户提供视频上传与点播服务。这些网站都采用了 顺序流式传输的方式来实现视频点播服务,即通过在客户端设置比较大的缓冲来 保证比较好的视频流畅性,一般对实时性的要求不高。与此相对应,随着全球化 进程的进一步深入,人们对实时丰富的在线交流方式的需求也不断增大,多媒体 会议、远程教学以及远程医疗等实时多媒体应用也应运而生。与上述视频网站不 同,这些应用一般采用实时流式传输的方式,实时性要求高,对时延敏感,而且 对服务质量要求高。 然而,在因特网上传输实时多媒体信息仍然面临巨大的挑战传统的因特网 提供的是一种尽力而为( a e s t e f f o r t ) 的通信服务,网络将尽力传输所有的通信数 据,但不提供任何服务质量( q o s ) 的保证。这种模式的简单性和健壮性是因特网 成功的重要基础,对于只要求准确率而对时延没有严格要求的数据业务来说是合 适的,但对于话音和视频等实时多媒体数据来说显然是有问题的。为保障实时视 频数据传输,学术界在视频传输的q o s 领域已经开展了大量的研究工作,并且 i e t f 提出了综合服务、差别服务、多协议标记交换、流量工程等q o s 技术解决 方案。但由于q o s 是端到端的问题,涉及到全网,单靠一个或几个环节不能从 根本上解决问题。于是,人们也开始考虑如何在应用层加入重传等机制来提供一 定的视频质量保证,但并没有取得很好的效果。到目前为止,视频传输的q o s 问题还没有得到很好的解决。 除了为网络增加更好的q o s 保障机制之外,人们也在不断的深入研究视频压 缩的方法,以希望能够找到对网络友好的视频编码方法,h 2 6 4 a v c 便是在这种 背景下诞生的。它是由i s o i e c 和i t u t 联手制定的,具有很高的编码效率, 而且码流结构网络适应性强,增加了差错恢复能力,能够很好地适应因特网和无 线网络的应用。h 2 6 4 a v c 标准只规定了编码器的标准输出码流,并没有说明具 体实现,如何高效的实现h 2 6 4 a v c 的编码器已经成为的目前的研究热点。不 过目前的方法主要集中在如何根据视频流的特点更好的压缩视频上,并没有把实 时的网络信息考虑进去。 综上可见,目前视频的传输机制与视频编码过程的研究是相对独立的,并没 能有机的结合起来。如果可以将两者的研究紧密结合到一块,使用视频传输过程 中收集的网络状态信息来指导视频的编码过程,便可以使视频编码具有网络自适 应的特性,有可能会得到良好的实时视频效果,这也是本文的研究重点 1 2 研究内容 基于上述研究背景,本文主要将围绕如何在视频终端的应用层加入网络感知 与自适应特性从而动态的调整视频编码来展开,其主要思想是将视频传输过程中 获得的实时网络状态信息用于指导视频的编码过程。为了更好的控制这个反馈过 程,能够智能的适应各种不同特征的网络,本文引入了在自动控制领域应用广泛 的增强学习算法。本文的具体研究工作主要包括以下几方面的内容: ( 1 ) 理想网络环境下视频终端系统的优化,主要涉及到视频传输过程中各 层传输协议缓冲的优化设置以及编码模式的选择与解码器的配置问题。 ( 2 ) 从视频终端的角度分析几个典型网络的时延、抖动以及丢包率等特征 并研究它们对实时视频传输过程所造成的影响,提出并验证了二些简单可行的优 化方式。 ( 3 ) 研究增强学习算法在实时视频传输系统中的应用,提出并实现了一个 基于增强学习的网络自适应系统结构。这是本文的创新之处,它根据获得的实时 网络信息来控制视频的编码过程,将两者有机的结合起来;而且这个系统可以根 据所处的网络环境不断的改进学习,做到了真正意义上的网络自适应。 1 3 论文结构 本文首先介绍了当前实时视频传输领域的相关研究及技术;然后讨论了本文 所使用的视频传输系统的实现方式以及实验环境的搭建过程,并介绍了基于已有 系统的优化工作:接下来重点说明了基于增强学习的网络自适应实时视频传输算 法的实现,并介绍了相关的验证结果;最后总结了本文的研究成果,并提出了下 一步可以深入研究的方向。论文共包括六章,除了绪论和总结与展望部分之外, 其他章节的主要内容如下: 相关研究( 第二章) 本章对实时视频处理相关领域的状况作简单介绍,包括视频编码技术、视频 2 质量客观评价技术等视频处理领域的基础理论,以及本文的核心算法增强学习相 关的研究和应用状况。 夺系统架构及实验环境( 第三章) 本章说明了研究中所使用的基本研究框架以及实验环境。首先介绍了整个实 验框架与流程;接着分别介绍了所使用的视频传输终端、仿真网络和视频质量评 价工具,并说明了为配合本研究对这些工具进行的改造工作。 视频终端优化( 第四章) 本章介绍了理想网络环境下视频终端的优化工作,主要包括其中使用到的传 输协议u d p 、r t p 的缓冲设置以及视频解码过程的优化,并验证了这些优化措 施所取得的结果。 网络自适应系统( 第五章) 这是本文的核心内容,也是本研究的创新内容。本章首先选取了几个有代表 性的网络,从时延、抖动、丢包率等角度对它们进行了统计分析;然后研究了不 同的时延、抖动及丢包率等网络特征对视频传输的影响,提出并验证了一些简单 可行的优化方式;接着重点介绍了增强学习在视频传输控制过程中的应用,并详 细说明了基于增强学习的网络自适应系统各个模块的实现方法以及与现有系统 的集成情况;最后分析并比较了采用本系统后视频质量的改善情况。 3 如上文所述,当前底层传输网络缺乏可靠的q o s 机制,导致实时视频传输的 质量难以保证。针对这个问题,本文提出了一个网络自适应的实时视频传输系统。 该系统主要利用应用层从视频传输中获得的反馈信息,采用基于增强学习的自动 控制机制,来动态的调整视频编码过程中的参数,在有限的网络条件下达到尽量 好的视频质量,从而提供更好的用户体验。其中主要涉及到了视频的编解码与控 制、视频质量的评价、以及基于增强学习的智能控制等几个不同的领域,在这些 领域中,国内外的学者都进行了很广泛的研究,从不同的角度来解决视频传输质 量问题,并都取得了一定的进展。因此,本章将首先介绍视频处理领域的基本问 题,如视频编码及质量评价等,然后说明与本研究密切相关的增强学习算法的研 究现状,同时调研了这些领域近期取得的一些有意义的进展。 2 1视频编码 随着市场对多媒体交互的需求日益增加,在尽可能低的存储情况下获得好的 图像质量和低带宽图像快速传输已成为视频压缩的两大难题。为了很好的解决这 个问题,i s o i e c 和i t u t 两大国际标准化组织联手制定了新一代视频压缩标准 h 2 6 4 a v c 。h 2 6 4 a v c 采用了统一的v l c 符号编码、高精度多模式的位移估计 等措施,具有很高的编码效率,相同图像质量下可以比h 2 6 3 节约5 0 左右的码 率;而且码流结构网络适应性强,增加了差错恢复能力,能够很好地适应因特网 和无线网络的应用。因此,本文也选用了h 2 6 4 作为视频的编码方式。 与其它标准一样,h 2 6 4 a v c 规范只是规定了编码器的标准输出码流,并没 有指定编码器如何实现,因此如何高效的实现h 2 6 4 编码器成为了研究的重点。 其中一个研究热点是码率控制问题,即如何在满足输出码率限制的条件下达到最 好的视频编码质量。h a n l iw a n g , 、d o k y o u n gk w o n 2 j 和s i w e im a t 3 】分别讨论了 基于失真率( r d o ,r a t e d i s t o r t i o no p t i m i z a t i o n ) 的不同的码率控制方法, m y o u n g - j i nk i m 4 】贝0 研究了基于帧复杂度的自适应码率控制算法。h 2 6 4 a v c 在 不同网络下的应用也引起了广泛的关注,t h o m a ss t o c k h a m m e r l 5 j 研究了 h 2 6 4 a v c 应用于无线实时视频中的配置问题,讨论了不同应用场景下的视频编 码与网络特征,提出并验证了一些编解码器选择与网络参数配置的指导原则; t h o m i l l ss t o c k h a m m e r l 6 j 讨论了基于h 2 6 4 a v c 的不同码率视频源的切换问题; 4 x i a o y a n gw a n g 7 】则研究了不同网络带宽下h 2 6 4 a v c 的编码问题。 2 2 视频质量评价 目前,大部分视频编码方法都采用了有损压缩的方式,牺牲了原有视频源的 部分信息,因此视频质量评价成为一个值得关注的问题。从方法上来看,视频质 量评价可以分为主观评价方法和客观评价方法。主观评价方法是对任一观测者连 续给出原始视频图像和处理过的失真图像,由观测者根据主观感知给出分值的方 法,需要召集大量不同人群反复试验。而客观评价则由程序按照一定的规则自动 完成,与主观评价相比,有操作简单、成本低、易于实现等优点,已经成为视频 质量评价研究的重点。下面将介绍并比较目前流行以及本文使用到的一些视频客 观评价方法。 2 2 1p s n r 在视频编解码过程中,目前一般采用峰值信噪比( p e a ks i g n a ln o i s er a t i o , p s n r ) 或均方差( m e a ns q u a r ee r r o r ,m s e ) 衡量视频序列的失真度,即 p s n r = - 。t o z ( 丽2 5 5 2 ) m s e 聋嘉姜k 一毫y 其中,x 和j 分别为原始图像与重建图像中对应的像素值,n 2 为n x n 图像 中的总像素数。这种方法易于计算,有明确的物理含义,而且数学领域更便于优 化,因此有很大的吸引力。但它的缺点也很明显,那就是忽略了人的视觉系统对 图像的感知习惯,评价结果不能很好的与人对图像的感觉相符。 2 2 2s s i m 基于结构失真的视频质量评价方法一一结构相似法( s t r u c t u r a ls i m i l a r i t y , s s i m ) 是由w a n 9 1 8 首次提出的。与p s n r 不同,s s i m 方法的依据是人体视觉系 统高度适合于提取视觉场景中的结构信息,从而计算编码前后图像结构信息的改 变情况能够更好的评价人们可感觉到的图像失真。s s i m 法提供了与人体感知图 像失真非常接近的一种客观评价方法,评价结果要比p s n r 更准确,但其计算也 更加复杂,在此不再赘述,s s i m 的详细说明及计算方式可参见w a n g 8 1 。经过网 络情况校正的s s i m 值将用在本文中作为实时的视频传输质量的评价标准。 5 2 2 3n t i ag e n e r a lm o d e l n a t i o n a lt e l e c o m m u n i c a t i o n sa n di n f o r m a t i o na d m i n i s t r a t i o n ( n t i a ) g e n e r a l m o d e l 9 】在v i d e oq u a l i t ye x p e r t sg r o u p ( v q e g ) 组织的视频评价工具测试中表现 非常突出,可以得到与主观评价几乎一致的结果,已经于2 0 0 3 年被a n s i 接受 为标准,同时被包含在i t u 两个推荐标准的正规方法中。n t i a 一直致力于研究 提取出一些技术无关的参数,这些参数可以用来很好的刻画人们感知图像质量的 行为,然后用线性模型将这些参数组合到一块,从而可以得到接近于主观评价的 结果。在实现的时候,n t i ag e n e r a lm o d e l 采用了局部引用技术( r e d u c e dr e f e r e n c e t e c h n o l o g y ) ,该技术使用了从源视频流和重构的视频流中提取的低通特征分量。 尽管这个方法有很好的视频质量评价结果,但与前两个方法相比,该方法过于复 杂,计算复杂性很高,不适于在线实时使用。考虑到这一点,本文采用该方法作 为线下的视频质量评价工具,用来判定经网络传输后接收到的视频的质量 2 3 增强学习 增强学习( r e i n f c i r c e m e n tl e a r n i n g ) 解决的问题可以描述为:一个能够感知 环境的a g e n t ,怎样能够通过不停的尝试与犯错误( t r i a l a n d e r r o r ) 来不断的学 习,从而能够选择可以达到其目标的最优动作。这个普遍的问题可以用于学习移 动机器人( r o b o t i c s ) 、在工厂中学习最优工作程序以及棋类游戏中。l e s l i ep a c k k a e l b l i n g t m 】介绍了增强学习领域的一些基本问题,并总结了增强学习的一些典型 应用场景:g a v i na d r i a nr u m m e r y t l 在其博士论文中详细讨论了各种增强学习算 法在机器人控制领域的应用情况,并对各个算法的性能以及优缺点做了详尽的分 析。增强学习与动态规划( d y n a m i cp r o g r a m m i n g ) 有一定程度的相似,可以用 来解决最优化问题,而其典型应用场合则是在实时控制系统中,用来学习最优的 控制策略。r o b e r ts h i s t e p a n i a n 眩l 首次将增强学习应用于视频传输领域,用来 解决医疗领域使用无线网络来传输视频图像时的码率控制问题。增强学习也是本 文网络自适应系统实现智能控制的核心,下面将简要介绍一下相关的基本概念和 算法。 在经典的增强学习模型中,a g e n t 处于一个动态变化的环境中,它可以感知 环境的状态( s t a t e ) ,并做出相应的动作( a c t i o n ) ,这个动作可能会改变环境的 状态。在每一步中,a g e n t 都会根据当前状态来判断并选择一个动作,这个动作 的结果会以奖励( r e w a r d ) 的形式反馈给a g e n t 。a g e n t 在每次决策时,应该选 择那些可以使得长期收益不断增加的动作,这可以通过不断系统化的尝试与评估 相应的奖励反馈来实现,这些系统化的学习过程可以通过各种不同的算法来实 6 现。第一种方法是采用遍历a g e n t 所有可行的动作空间的方式来找到适合当前环 境状态的动作,遗传算法和一些其他的搜索算法采用了这种方法:第二种方法则 使用了动态规划和统计的技术来评估所采取的动作在当前环境下的可能收益,这 也是目前增强学习领域的主导方法。 增强学习领域要解决三个基本问题:探索( e x p l o r a t i o n ) 、延迟奖励( d e l a y e d r e w a r d ) 和部分可观察状态( p a r t i a l l yo b s e r v a b l es t a t e ) 问题。( 1 ) 探索问题即 a g e n t 什么时候去尝试新的动作,什么时候从过去的动作中选择,如果要尝试新 动作,采用怎样的尝试策略。这个问题有多种不同的解决方法,如贪心( 每次都 选取当前已知奖励最高的动作) 、随机选择( 选择某一动作的概率与该动作已知 奖励成正比并有一定概率选择新动作) 等,选择哪种方法一般都与具体的应用场 景有关。( 2 ) 延迟奖励问题,即在一个动作序列后a g e n t 才可能得到环境的奖励 反馈,这就涉及到将该奖励分配到哪一个动作的问题,这个过程可以用马尔科夫 决策过程( m a r k o vd e c i s i o np r o c e s s ,m d p ) 来描述。在外界环境模型已知的情 况下,m d p 问题可以用动态规划的方法来解决,从而得到最优的动作序列;而 在实际应用中,要完整的建模来刻画外界环境是十分困难的,有时候是不可能的。 a d a p t i v eh e u r i s t i cc r i t i c ( a h c ) 和t d ( 兄) 可以解决这个问题,它们属于时间差 分算法( t e m p o r a ld i f f e r e n c e ) ,不需要环境模型,采用一定的策略将延迟的奖励 分配到过去的动作中。( 3 ) 部分可观察状态问题,即a g e n t 只能得知周围环境的 部分信息,而且在学习过程,中不一定可以遍历所有的环境状态,这就要求a g e n t 有一定的泛化( g e n e r a l i z a t i o n ) 能力。也就是说当遇到没有经历过的状态时,a g e n t 要能够根据已有的其他状态的知识,做出比较合理的动作。具体实现时一般采用 函数拟合的方式来实现状态空间的泛化能力,a i 领域的很多经典方法可以用来 解决这个问题,如决策树( d e c i s i o nt r e e ) 、人工神经网络( a r t i f i c i a ln e u r a l n e t w o r k ) 、基于实例的学习( i n s t a n c e b a s e dl e a r n i n g ) 等,目前人工神经网络应 用的比较广泛。另外,如何应用增强学习来解决具有连续状态空间和连续动作空 间的问题也是当前的研究热点。c h r i sg a s k e t t 1 3 】给出了解决该问题的系统所需要 具备的一些特征,并研究了扩展增强学习算法q l e a r n i n g 来解决该问题的方法; g a v i na d r i a nr u m m e r y i 】也研究了增强学习在解决机器人学习领域连续动作空 间问题中的应用,并与其他方法做了比较,指出了各自的优点与缺点。 以上大致介绍了增强学习相关领域的基本概念与问题,增强学习方面的详细 知识可参见t o mm m i t c h e l l h l 和r i c h a r ds s u t t o n 1 5 j 。上面提到的问题,在本文 中的网络自适应系统中也会遇到,下面会说明本文的具体解决方法。 7 第三章系统架构及实验环境 为了更好的研究视频传输中各个不同因素对视频传输质量的影响,需要一个 可灵活配置且可重复使用的实验环境,下面将简要介绍本文研究中使用的实验环 境,并将说明实验中的整个流程以及各个阶段使用到的工具。 如图3 1 所示,整个实验系统主要由视频终端、网络和视频评价工具组成 整个实验流程如下,首先发送侧视频终端读取事先选取好的视频测试文件,经过 视频编码后,将编码后的视频流通过r t p 协议( r e a l t i m et r a n s p o r tp r o t o c o l ,实 时传输协议,用于实时多媒体传输) 发送到对端视频终端;接收侧视频终端接收 到r t p 承载的视频流后,经过视频解码重构视频图像,将重构后的视频图像保 存到文件中;最后将使用视频评价工具来评估收到视频的质量,视频评价工具需 要视频源文件与重构的视频文件作为输入。在视频流通过r t p 传输的过程中, 可能会经过各种不同网络,这个网络可能是实际的因特网,也可能是仿真网络, 具有不确定的时延,并可能会产生丢包,这就会导致接收侧视频终端无法得到完 整有序的视频流,从而对视频图像的重构造成很大的影响。本文的目的就是将这 个影响尽量降低,从而在有限的网络传输条件下达到最好的视频质量,使用户获 得最好的视觉体验。 如2 1 小节所讲,h 2 6 4 a v c 是一种很适合网络视频传输的编解码方式,所 以本文实验过程中视频编码格式采用了h 2 6 4 a v c ,视频终端则选用了支持 h 2 6 4 的s i pc o m m u n i c a t o r l 视频质量评价工具选用了b v q m ,它的评价结果接 近于主观评价;另外,为了能够灵活的配置并控制视频传输中的网络情况,达到 可重复实验的目的,传输网络选用了n s 2 搭建的仿真网络,实验中该仿真网络 参数都根据实际网络的参数加以配置。以下各部分将分别详细介绍各个组件。 、 3 1视频终端 视频终端选用了s i pc o 瑚m 蛐i c a 耐0 6 1 ,s i pc o m m u n i c a t o r 是一个支持音视频 的软电话终端和即时通讯程序。它是用j a v a 语言开发的,支持目前流行的大部 分电话呼叫控制和即时通信协议,如s i p 、g o o g l e t a l k 、a i m 、l c q 、m s n 、y a h o o ! m e s s e n g e r 等。s i pc o m m u n i c a t o r 最大的特色是其开发采用了a p a c h e 开发的 f e l i x ,是基于o s g i 架构的,具有很好的灵活性与可扩展性,对新的通信协议或 其他能力的支持可以采用插件的形式很容易的集成到整个程序中,而且可以根据 个人需求自由配置运行时加载的插件。在多媒体处理方面s i pc o m m u n i c a t o r 采 用了j m f 框架,j m f 本身也是一个基于插件的媒体处理框架,不仅提供了强大 的功能,还可以灵活的将新的编解码器集成进去。可以看出,s i pc o m m u n i c a t o r 很适合本研究的需求。 3 1 1j m f 框架 j m f 1 7 】( j a v am e d i af r a m e w o r k ) 为管理实时媒体数据的获取、处理和传输 提供了一个统一的架构和交互模式,可以支持大部分的标准媒体格式,如a i f f 、 a u 、a v i 、g s m 、m i d i 、m p e g 、q u i c k t i m e 、w a v 等。使用j m f ,开发者可 9 以捕获存储媒体信息,控制播放过程中处理的媒体类型,甚至可以按照需求个性 化的处理媒体流。如图3 2 所示,j m f 本身有很多不同类型的插件,其中 d e m u l t i p l e x e r s 和m u l t i p l e x e r s 分别负责分离与混合媒体流:c o d e c s 负责媒体的 编解码;而e f f e c t s 和r e n d e r e r s 则负责媒体流的呈现。对每种插件,j m f 本身都 提供了丰富的实现,开发者本身也可以开发能满足自己需求的插件并集成到j m f 整个框架中。本研究中将h 2 6 4 的编解码器集成到了j m f 中,使得j m f 可以支 持h 2 6 4 格式的视频处理。 掣毒= 。4 j a v aa p p l i c a t i o n s ,a p p l e t s ,b e a n s _艟链嚣鼹影僦糍缓妙獬嚣j棼携m辫铲铭f缘鬻磷p甥鬻r撬铹e糍彩s2搿e撩绷n锈嬲ta8骝t戮i 图3 - 2j m f 架构 j m f 采用了与实际生活中类似的概念来抽象对媒体的处理,d a t a s o u r c e 像唱 片一样封装了媒体流,而p l a y e r 则像唱片机一样可以用来控制媒体流的播放。如 果要从外界获取音视频或播放音视频,j m f 需要有合适的音视频输入输出设备, 它们与j m f 的集成可以通过各种驱动来实现。p r o c e s s o r 提供了比p l a y e r 更多的 控制选项,可以用来更细致的控制媒体流的处理;d a t a s i n k 封装了媒体文件保存 格式方面的细节,可以用来把媒体流保存到文件中。如果要把媒体流通过网络传 给其他人,则需要使用j m fr t pa p i 。j m fr t pa p l 支持r t p 流的接收和处理, 并且p l a y e r 、p r o c e s s o r 可以无缝的处理r t p 流创建的d a t a s o u r c e ,开发者也可 以把抓取或读取的媒体流通过j m fr t p a p i 以r t p 流的形式发送出去。 3 1 2 视频编解码器 的是另外一个开源项目x 2 6 4 t 1 9 】。f f m p e g 提供了录制、转换以及流化音视频的完 整解决方案,包含了非常先进的音频视频编解码库l i b a v c o d e c ,支持4 0 多种编 码、9 0 多种解码。x 2 6 4 是一种免费的、遵循h 2 6 4 a v c 标准的性能最优的开源 编码器。本研究主要会使用到x 2 6 4 提供的码率控制功能,下面将详细介绍x 2 6 4 支持的码率控制模式以及各自的特点。 ) 【2 6 4 共有4 种码率控制模式,分别为: ( 1 ) 2 - p a s sm o d e :需要遍历视频文件两遍,第一遍用来获取视频文件的信 息,计算每一帧比特分配的相对比例l 第二遍根据目标文件限制,做实际的比特 分配,而后开始编码,编码完每帧后会做码率溢出补偿。这种模式可以达到最好 的视频总体质量,但因为要多遍扫描视频文件,且处理速度比较慢,不适合作为 实时的视频编码方式。 ( 2 ) 1 - p a s sa v e r a g eb i tr a t em o d e ( a b r ) :只需一遍扫描,使用快速的运动 估计算法来评价帧的复杂度,而比特数的分配则基于以往所有编码过的帧。码率 溢出补偿与2 - p a s sm o d e 相同,且根据配置,实际输出码率与目标码率差异可能 会比较大 j ( 3 ) 1 - p a s sc o n s t a n tb i tr a t em o d e ( c b r ) :与a b r 相同,不过比特数的分 配过程中采用的是局部的帧,而不是以往所有的帧,并且码率补偿机制更加严格, 可以很好的控制码率。该种模式比较适合本文需求也是后面实验中h 2 6 4 编码 器所使用的码率控制模式。 ( 4 ) c o n s tr a t ef a c t o r ( c r f ) 和c o n s tq u a n t i z e r ( c q p ) l 前者使用固定的 比例因数( s c a l i n gf a c t o r ) ,并且没有码率补偿机制;后者则对每种帧使用固定的 q p 参数。这两种模式也不适合本实验使用。 3 1 3 终端结构改造 s i pc o m m u n i c a t o r 本身的定位是一个软电话终端和i m 程序,其发送的媒体 流是从音视频设备抓取的,而接收到的音频流输出到音频输出设备,接收到的视 频流则显示在窗口中。如图3 3 所示,在发送侧,来至音视频输入设备的媒体流 被封装为原始d a t a s o u r c e 的形式,该原始d a t a s o u r c e 作为p r o c e s s o r 的输入, p r o c e s s o r 对输入的媒体做编码或转码处理,产生具有指定编码格式的媒体流, 此时r g b 视频流被编码为h 2 6 4 格式的视频流,该视频流最终通过s e s s i o n m a n g e r 以r t p 流的形式传输到网络中;在接收测,收到r t p 流后j m f 创建相 应的d a t a s o u r c e ,该d a t a s o u r c e 作为p l a y e r 的输入,p l a y e r 将媒体流解码后分发 到对应的音频设备或显示在程序窗口中。 北京衄电人学硕上学位论文第三章系统架构及实验环境 嚣 c a p t u r e d e v i c e u :;圜i : 0 口 :p r o c e s s o r 。 lm r 视 视 频 0 口 频 终 多 终 端 多 端 0 ,口 s e s s o nm a 嗍e r l 仁 冷l s e s s m a n a 9 e r f v t ,一 图3 3s i pc o m m u n i c a t o r 原架构 。 为了使s i pc o m m u n i c a t o r 能很好的应用于图3 1 所示的架构与流程中,需要 对其进行改造,改造后的程序架构如图3 - 4 所示与图3 3 相比,主要有以下刁 同:在发送侧,改为从媒体文件创建d a t a s o u r c e :在接收侧,p l a y e r 由p r o c e s s o 替换,从而进行比较细致的控制,如设置目标编码格式等,p r o c e s s o r 也会进行筠 体流分离以及转码等工作,而p r o c e s s o r 的输出d a t a s o u r c e 则作为d a t a s i n k 的辐 入,最后d a t a s i n k 负责将媒体流保存到媒体文件中。重构后的视频文件与视发 源文件格式相同,都是r g b 格式,可以用于后续的视频质量分析过程中。 本文之后所做的全部工作都是基于图3 - 4 模式的。不过由于改造过程中只夷 增加了对图3 4 模式的支持,除了上述不同外,图3 3 与图3 - 4 共用相同的核一c 传输与控制算法,因此本实验中的算法以及实验结果同样适用于图3 3 模式,上 无需额外的移植工作。 1 2 视 频 终 端 3 2 实验网络 图3 4s i pc o m m u n i c a t o r 改造后架构 视 频 终 端 本文的研究目标是构建一个能够自适应各种网络的实时视频传输系统,各种 不同实验网络的构建是其中很重要的一个问题。但是要构建各种不同的实际网络 成本比较高,而且不易配置;而软件仿真网络则具有灵活可靠、易重构等特点, 并且可以避重就轻,关注感兴趣的部分而排除其他因素的影响。考虑到这些特点, 本研究中的实验网络为仿真网络,该网络使用n s 2 ( n e t w o r ks i m u l a t o r v e r s i o n2 ) 来搭建,下面将分别介绍n s 2 以及本实验仿真网络的配置情况。 3 2 1n s 2 n s 2 2 0 】是一款开放源代码的网络仿真软件,最初由u cb e r k e l e y 开发而成。 它为有线和无线网络上的t c p 、路由和多播等协议的仿真提供了强有力的支持, 是目前网络研究领域应用最广泛的网络仿真软件之一。n s 2 使用了分裂对象模 型的开发机制,将数据通道和控制通道的实现相分离,数据通道上的基本网络组 件使用c + + 编写,而为这些组件的配置与使用提供了脚本开发的接口,这样既保 1 3 证了仿真效率,又提高了仿真配置的灵活性和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学入学考试数学模拟试卷及详细讲解
- 六年级分数混合运算教案及习题
- 医院专家聘用合同及责任条款
- 企业运营成本控制报告编制方法详解
- 2025-2030儿童饮食教育市场营养标准与家庭渗透策略及商业模式创新报告
- 2025-2030儿童艺术教育市场发展趋势与投资机会研究分析报告
- 2025-2030儿童环保教育实践项目社会效益与盈利平衡报告
- 2025-2030儿童教育APP用户留存与付费意愿报告
- 2025-2030儿童户外探险教育行业需求与未来发展预测报告
- 2025-2030儿童心理健康教育市场认知度与服务体系构建分析报告
- SAP QM质量管理模块配置详解(S4系统)
- 2025年辅警招聘考试试题库(含答案)
- 精神运动康复
- 2025年陕西省中考数学试题卷(含答案详解)
- 2025年中小学生国防知识竞赛题库及答案
- 机械制图选择题试题库及答案
- 湖南省科技创新惠企助企政策汇编 2025
- DB45∕T 2746-2023 国家储备林培育技术规程
- 医保基金监管培训课件
- 药厂变更管理培训
- 体育安全与急救知识培训
评论
0/150
提交评论