




已阅读5页,还剩65页未读, 继续免费阅读
(通信与信息系统专业论文)复杂环境下流媒体的可靠性传输.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网的发展,互联网的应用范围在不断的扩展,尤其是实时多媒 体应用在互联网上逐渐流行。对于互联网或者无线网络这样基于包交换的信 道,网络状况不稳定( b a n d w i d t hv a r i a t i o n ) ,丢包( p a c k e tl o s s ) ,不均匀延迟 ( d e l a yv a r i a t i o n ) 的情况时有发生。分析了主要的视频压缩标准的压缩原理和 特点以及信息之间的强相关性。 本文针对多媒体视频编码技术的特点,利用其压缩的特性,提出了在复 杂环境下流媒体可靠性传输的一整套策略。主要包括为了适应网络带宽变化 的基于a i m d 的自适应传输策略,对于其不能解决的丢包使用关键帧重传 技术,解码器端的差错隐藏技术和基于交织的打包技术来解决。最后给出在 无线环境下的实验结果,表明使用本文提出的方法对图像质量的提高有比较 大的作用。 关键词a i m d ,自适应,视频编解码标准,关键帧保护,差错隐藏 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r n e t ,t h es c o p eo f i n t e r n e ti sb e c o m i n gw i d e r , e s p e c i a l l yi n t h er e g i o no fr e a lt i m em u l t i m e d i a i nt h ec o m m u n i c a t i o nv i a i n t e r n e tw h i c hi s p a c k e ts w i t c h e d ,o c c u r r e n c es u c ha sb a n d w i d t hv a r i a t i o n , p a c k e tl o s s ,d e l a yv a r i a t i o n ( j i t t e r ) h a p p e n sf r e q u e n t l y t h e na n a l y z i n gi sf o c u s e d o nt h et h e o r yo f v i d e oe n c o d e ra n dd e c o d e ra n dt h ec o h e r e n c eo f a d j a c e n tf i e l d s t h i sp a p e rp r o p o s e daw h o l l yk i n do fr e l i a b l em u l t i m e d i at r a n s m i s s i o ni n t h ec o m p l e xc i r c u m s t a n c ew h i c hi sb a s e do nt h ec h a r a c t e r i s t i co fm u l t i m e d i a v i d e oe n c o d e ra n dd e c o d e r i ti sc o m p o s e do fa na d a p t i v et r a n s m i s s i o ns t r a t e g y b a s e do na i m dt oa d a p tt ot h ev a r i a t i o no fi n t e r n e t ,k e yf r a m er e t r a n s m i s s i o n s t r a t e g y e r r o rc o n c e a l m e n tb a s e do nd e c o d e ra n dp a c k e t i n gb a s e do ni n t e r l a c i n g t os o l v es o m ep a c k e tl o s sr e m a i n s a tl a s t ,t h i sp a p e re x p e r i m e n t si nw i r e l e s s e n v i r o n m e n ta n dd i s c l o s e sa nc l e a ri m p r o v e m e n ti nt h eq u a l i t yo fr e c o n s t r u c t i o n v i d e o k e y w o r d sa i m d ,a d a p t i v er a t ec o n t r o l ,v i d e oc o m p r e s ss t a n d a r d ,k e y - f r a m e p r o t e c t i o n ,e r r o rc o n c e a l m e n t i i 1 1 选题背景和意义 第1 章绪论 随着互联网的发展,带宽的不断增长,互联网的应用范围也在不断的扩 展,特别是基于流媒体传输的应用取得了长足的发展。在i n t e m e t 上传输视频 的相关技术的研究也成为i n t e m e t 技术研究和开发的热点。目前,许多实验性 的高速宽带网络都把视频传输的技术和应用作为研究的重点课题。美国的 i n t e m e t 2 ( 1 2 ) 研究计划中成立了数字视频研究组( 1 2 d v i ) 【1 】作为1 2 应用开发的 重要组成部分。我国的3 t n e t 研究计划中也明确要开阿高速网络中的流媒体相 关技术,实现h d t v 等视频的应用。 同时随着互联网的发展,人们对于互联网应用的需求也在不断的扩大。早 期互联网的出现已经深刻的改变了和影响了人们的生活方式,使交流和获取信 息的途径更加快捷和方便。而随着网络视频等应用的出现,互联网将变得更加 多姿多彩,成为和电视,广播等家庭媒体中的同等组成部分,而且可获取的资 源将更加的丰富,便捷。 主客观的条件都需要加速发展在互联网上传输视频的技术,特别是无线通 信3 g 时代的到来,对于发展基于互联网包交换技术的流媒体传输的技术也具 有特别重要的意义。但是,对于豆联网或者无线网络这样基于包交换的信道, 网络状况不稳定( b a n d w i d t hv a r i a t i o n ) ,丢包( p a c k e tl o s s ) ,时延抖动 ( d e l a yv a r i a t i o n ) 的情况时有发生。这些情况对于传统的互联网应用的影响 比较有限,但是对于流媒体的应用而言,这些因素对于可靠的传输流媒体的影 响是相当明显的,甚至还是至关重要。为了在互联网上高效的,有质量的传输 流媒体,需要多种技术的支持,在下节中将主要介绍一些在i n t e r n e t 上视频 传输的一些重要技术。 1 2 流媒体可靠性传输的相关技术 在互联网上传输多媒体, 需要一系列关键技术的支持,包括多媒体的编 解码技术,流媒体的打包和相应传输协议,流媒体的可靠性传输策略等。 编码技术是流媒体的主要技术,高压缩比低失真率的压缩编码方法一直是 人们追求的目标。目前多媒体视频的编译码技术主要包括基于分段的编码 ( f j a g m e n t a t i o nb a s e dc o d i n g ) ,基于模型的编码( m o d e lb a s e dc o d i n g ) ,基于子 带的编码( s u b b a n dc o d i n g ) ,基于向量的使用码书的编码( c o d e b o o kv e c t o r - b a s e dc o d i n g ) ,基于块的d c t 波形编码( b l o c kb a s e dd c tt r a n s f o r mc o d i n g ) 。 目前的视频编码标准主要是使用这几种压缩编码的方式,应用的最广泛的是基 于块的d c t 波形编码,这种编码方式比较成熟,同时他们可以被设计成能提 供q o s ( q u a l i t yo f s e r v i c e ) ,还可以控制输出码流的大小,这些特性使这种编码 方式特别广泛。目前两大标准化组织i s o ( i n t e r n a t i o n a ls t a n d a r do r g a n i z a t i o n ) 和i t u ( i n t e m a t i o n a lt e l e c o mu n i o n ) 的视频压缩标准都使用基于块的d c t 波 形编码作为他们的编码标准的最主要部分。因此,在后续章节的对编码的讨论 主要讲集中在基于块的波形编码上。 由于现在的互联网只能最大限度的提供服务( b e s t e f f o r t ) ,在互联网上传 输数据不可避免的有丢包,延时,时基抖动,可用带宽的变化等。为了有效地 在互联网上传输压缩的流媒体数据,合理的打包方法和传输协议传输策略也具 有很重要的意义。合理的打包方法应该保证使传输时的丢包对图像质量或者信 息的丢失最小化,这同样也需要相应协议的支持,比如r t p 协议有专门针对 不同多媒体压缩标准的协议规范。r t p 协议能够对多媒体的数据进行分装并且 r t p 的相关协议r t c p 可以使通信的双方获取控制信息,这样能保证通信双方 可以通过r t p r t c p 做数据的交互和信息的回馈,从而可以对传输做进一步的 优化。 这种优化一部分是通过可靠性传输策略来完成。可靠性传输策略可以包括 的范围比较广泛,比如传输层协议的选择,是使用u d p 还是t c p 在实时性 要求比较高的流媒体传输中,u d p 比t c p 协议使用的更加广泛( t c p 的实时 性比较差) 。但是u d p 协议不提供可靠服务,并且也没有根据网络状况作类似 于t c p 拥塞控制机制,合理的传输就需要一套来弥补这些问题的方法,但同 时也不能引入太多t c p 在实时传输存在的缺点,以后的章节中将陆续讨论这 样的一些策略。 大多数的压缩标准如h f 2 6 3 ,m p e g 4 这样基于块的运动补偿和d c t 波形 编码的方案,基本上会使用可变长编码( v l c s ) ,如h u f f m a n 编码作进一步的 编码压缩。而可变长编码的引入使得在在有误码的环境中导致译码效率很低, 因为可变长编码中某一位的丢失将导致后面的在同步点( s y n c h r o n i z a t i o n p o i n t ) 之前的数据无法正确译码。同时基于块的运动补偿和离散d c t 波形编 码的方法的运动估计和运动补偿技术使得各帧之间的依赖性比较大,参考帧的 不能正确译码或者丢失将会对图像质量造成很严重的影响。在保证图像质量的 前提下,不管是编码器,解码器,还是传输策略都应该使对于传输中的错误或 者丢包有较好的抗错抗丢包的能力。很多技术在这种背景下提了出来,他们主 要可以被分为四大类:反馈通道或者差错重传的方法【2 。,前向纠错( f e c ) 或者信道编码的方法 h 】,编码器端的抗差错的方法 1 5 - 1 8 】和解码器端差错检 测和容错 1 9 - 2 4 j 的方法。 为了保证复杂环境下( 丢包,误码通道) 的可靠性传输,有必要提出一个 可靠性传输的框架和技术,策略。 1 3 可靠性传输的框架和模块概述 发送控制;l接受控制 传 输 接 口 与 信 道 图一:可靠性传输的基本模块 禹捌虱 一 模缺 一 简单的可靠性传输的基本模块如图一所示,其中编码器,接收缓冲,解码 回放以及传输接口是流媒体传输的基本部分。 在信源编码的部分加上抗差错模块,该模块的功能是在编码器的输出流中 添加一些同步标志之类的信息,增加的冗余信息使传输的码流在有差错的时候 把差错的范围限制在某一较小的区域,使误码的影响最小化,但是这种方式会 使码流增加少量的冗余信息。 在发送控制部分的重传控制模块是通过反向信道由客户端通知相应的接收 是否成功( a c k ,n a c k ) ,然后控制缓冲池的重传来保证数据可靠的到达。 然而这种方式的缺点是在丢包时会增加数据传输的延时,这是使用这种方法的 时候需要注意和改进的地方。为了保证在网络拥塞的情况下能够缓解流量的碰 撞,增加了流量控制模块加以处理。当然还可以加上某些信道编码的方式来控 制错误获得正确的数据,然而这种方式也会增加网络流量。 在接收回放部分对应于发送编码部分的相应模块,同时对于基于块的运动 补偿和d c t 波形编码的情况下,可以增加差错隐藏的部分,可以保证实时在 差错不能恢复的情况下通过某些估计和统计的方法,最大限度地保证图像质 量。 在以后的章节中,将给出一种合理的流媒体的传输框架主要部分是基于 图一中揭示的模块或者说流媒体可靠性传输的简单框架。并且给出为什么这样 做的原因以及相应的改进方法。 1 4 论文结构和作者的工作 为了在包交换网络上可靠的传输流媒体,本文首先分析了多媒体视频压缩 的技术和使用这种技术可能给传输带来的影响,通过丢包对图像质量的影响的 分析提出了一个复杂环境下流媒体传输的框架或者方案,并且将各种可靠性传 输的技术加以改进和整合。主要的改进包括基于交织技术的打包策略。以及自 适应传输,流量控制,差错重传,差错隐藏技术方面给出一个完整的框架,同 时对各种容错的方法做出了分析,通过比较各种差错隐藏技术提出一种改善的 差错隐藏方法并且根据对差错隐差技术的分析,结合交织技术提出了一种新的 打包方法,并且提出了一套如果在帧丢失的情况下如何做出处理的技术,同时 也提出了一个能收敛到网络可用带宽的自适应码流控制技术。作者也实现了一 个视频多媒体可靠性传输的客户端和服务器端的原型,并且对作者提出的框架 作了验证试验,给出了试验结果。 本文分为六章,详细介绍了作者对于流媒体技术的考虑和因此而提出的一 种可靠性传输框架的详尽描述,并且本文的侧重点是基于多媒体视频的可靠性 和实时性传输: 第一章是绪论,概要的介绍了流媒体传输的相关技术以及流媒体传输的难 点。 第二章主要介绍了多媒体视频的压缩原理,主要是讨论了主流的基于块的 运动补偿和d c t 波形编码( m c d c t ) 技术,随后对讨论了各种主要的视频压缩 标准,并主要介绍了m p e g 4 ,本文的实验和原型是在m p e g 4s i m p l ep r o f i l e 下实施的。 第三章将讨论丢包对于图像重建所造成的影响以及编码算法的鲁棒性,在 此基础上给出了一套可靠性传输的方法。本文第四章第五章将详细讨论这些技 术以及试验结果和结论。 第四章讨论了自适应算法,分析了一些拥塞控制的策略,并给出了一种自 适应算法和关键帧差错重传技术并给出实验结果。 第五章将主要讨论各种容错,差错隐藏的方法,提出了一种新的相邻帧之 间差错隐藏的新方法,给出了一种降低相邻数据包之间相关性的打包方法,最 后给出实验结果。 第七章对于复杂环境下的可靠性传输做出总结和展望。 第2 章多媒体视频压缩标准概述 2 1 多媒体视频压缩技术基础 2 i 1 视频压缩的的必要性 未经压缩的视频图像的表达需要占用大量的位元元组数,这对于绝大多数 的存储介质和传输通道而言是太密集了。比如未经压缩的和模拟视频有相似空 间分辨率和帧率的数字视频用r r u r6 0 1 1 2 5 1 标准表示的话。需要大概 f 1 3 5 + 6 7 5 + 6 7 5 m h z ) * 8 b i t = 2 1 6 m b p s 的传输率,在这个速率下,一个4 7 g 字 节的d v d 光盘只能存放大概8 7 秒的未压缩的视频。这对于现有的存储介质技 术和网络传输技术而言都是巨大的鸿沟,而视频压缩的目的就是为了弥补这个 鸿沟。视频压缩系统是在不改变或者有限度改变视频质量的基础上减少需要存 储或者传输的数据量,减少带宽。般而言大多数压缩标准都是有损的,一个 视频压缩系统或者标准的好坏,很大程度上是要看能到达同等视频质量下的数 据压缩比。 目前多媒体视频的编译码技术主要包括基于分段的编码( f r a g m e n t a t i o n b a s e dc o d i n g ) ,基于模型的编码( m o d e lb a s e dc o d i n g ) ,基于子带的编码( s u b b a n dc o d i n g ) ,基于向量的使用码书的编码( c o d e b o o kv e c t o r - b a s e dc o d i n g ) ,基 于块的d c t 波形编码( b l o c kb a s e dd c t t r a i l s f o r mc o d i n g ) 。目前的视频编码标 准主要是使用这几种压缩编码的方式,应用的最广泛的是基于块的d c t 波形 编码 2 1 2 视频压缩主要技术介绍 数字视频数据压缩不仅是必要的而且也是可能的,原因是,自然视频图像 具有极大的相关性。以静态图像画面为例,数字图像的每一帧具有很强的相关 性,可以看成是一个平稳的马尔科夫过程,所以在空域存在极强的相关性,对 于运动图像而言,时间上也存在有很大的相关性。视频压缩的原理的基础就是 基于上述的论述,并且可以作为无损压缩的基础。然而,为了进一步的提高压 缩比,提出了有损的压缩技术。比如人类视觉系统( h v s ) 2 6 1 的使用,使得压缩 比得到了很大的改进。人类视觉模型是人类对视觉刺激做出感知和解释的系 统。经过研究发现人类视觉系统对亮度信号的敏感要大于色度信号( y u v 色 度空间模型的提出,少量减少u v 分量不会对图像产生严重影响) ,对于空间分 辨率低的区域要敏感于空间分辨率高的区域( 自适应量化模型的提出,在量化 模型中对高频区域做粗略的量化甚至可以丢弃,对低频部分加以保护等) 。虽 然这些都会对重建的图像质量有一定的影响( 可以限制在受控范围之内) ,但 是可以更大程度的提高压缩比。目前去处图像冗余度的压缩编码方法主要存在 五类视频压缩编码技术1 2 6 1 : 基于分段的视频编码方案是一类新的图像压缩和编码方法,并且充分运动 了人类视觉模型( i - r v s ) 尽可能获取高的压缩比。这种技术及那个图像分割成任 意的形状的几个区域,然后对每个区域分别使用纹理编码和形状编码。随后对 连续帧对分段区域进行运动特性的的分析,由于分段是任意形状的,所以对于 段的边缘区域的分析更为重要。这种技术的一个著名的标准是m p e g 4 的基于 v o ( v i s u a lo b j e c t ) 的编码。 基于模型的编码方法首先会预定义一个模型。在编码的过程中,这个模型 通过对参数的控制不断的对模型进行变形来匹配实际检测到的对象。模型的变 形情况用来表示对象的边缘。再解码器端应该有一个和编码器端一样的模型在 译码的时候重建对象。实际传递的控制模型的参数,所以这种方法可以获得相 当可观的压缩效率。 第三种方法是基于子带的编码,前面所述的基于段的视频编码方法是一种 空域的分割图像的方法,而基于子带的视频编码则是一种基于频域分割的编码 方案。这种方法是用一组滤波器把视频信号分成一系列频率段,在对这些分量 进行抽样,形成子带图像,最后对不同的子带图像分别用与其相匹配的方法进 行编码。可以给不同的频率段可以给予不同重要性,比如在人类的视觉模型中 对高频成分的敏感程度不如对于低频部分,这样在编码的时候对高频分量给予 较低的优先级,可以使用较粗略的编码方式在传输的时候甚至可以丢弃不传。 在接收端,将译码后的子带图像补零,放大并经合成滤波器的内插,将各子带 信号相加,进行图像复原。这种编码技术的著名的例子就是小波变换 ( d i s c r e t ew a v e l e tt r a n s f o r l n ) 。 第四种方法就是基于码书的向量编码,在视频中的向量可以由预测误差, 变换系数,或者子带样本组成。向量编码的概念包括在视频帧中识别向量和在 码书中按照最短距离匹配原则,最小均方误差原则或者最小比特率原则找到一 个码字来代替该向量。一旦找到了在码书上相匹配的码字以后,把该码字的索 引发送给译码器端,最终译码器根据该索引从译码器自己的码书中恢复出与编 码器相似的向量,完成编译码的过程。显而易见,这种方法的最重要的部分是 码书的设计。 第五种方法是基于块的运动补偿的d c t 波形变换的方法( m c d c t ) 。这 种方法是目前大多数主流的视频编码标准和视频编解码器使用的技术,下一小 节将详细介绍这种方法。 2 1 3 基于块的运动补偿和d c t 波形变换 基于块的运动补偿和d c t 波形变换算法【27 】实际上是由两部分组成的,也 就是基于块的运动估计和运动补偿算法( m o t i o nc o m p e n s a t i o n ) 和属于变换域编 码的离散余弦变换( d i s c r e t ec o s i n et r a r t s f o i t n l 。 2 1 3 1 离散余弦变换 离散余弦变换1 2 8 l 是属于变换域编码的一种。变换域编码不是直接对空域图 像信号编码,而是首先将空域信号影射变换到一个正交的空间( 变换域,或者 频域) ,由于变换域是正交空间,所以经过变换的系数和原有的数据相比其相 关性显著下降,资料冗余度减少。在发送端将原始图像分割成l n 个子图像 块,每个图像块送入正交变换器做正交变换,变换器输出的变换系数经过滤 波,量化。熵编码后送到接收段做解码,经过熵解码,反量化,逆离散余弦变 换最后重建出空域图像。 对于变换编码技术,迄今已经有近3 0 年的历史,技术上比较成熟,理论 也较完备,正交变换的种类很多,有傅里叶变换,沃尔什变换,哈尔变换,斜 变换,余弦变换,正弦变换,k l 变换等。 离散余弦变换是一种次最优的正交变换,与最优正交变换k l 相比,变换 的压缩性能和误差都与k l 变换接近,而d c t 变换算法复杂度适中,又具有 可分离的特性,还有快速算法等特点,所以近年来在图像数据压缩中,采用离 散余弦变换的编码方案很多,特别是9 0 年代崛起的计算机多媒体技术中, j p e g ,m p e g ,h 2 6 x 标准都用到了离散余弦变换进行数据压缩。 其中二维离散余弦变换公式为: 设空域变换的取值范围为: x = o 1 n 一1 y = 0 1 ,一1 设值域变量的取值范围为: “= 0 i ,一1 v = 0 ,l ,一1 则二维离散余弦正交变换公式为: c 咖即脚e ) 吾艺x 0 兰y 。o m 办c o s ( 等小s 等v y y m 0 c ( ) = e ( ”) ( v ) 寺“办c o s f 等甜万) c o s f 等l 二 二v v ,v = 0 1 ,n 一1 式中,当= o ,v = o 时,e ( u ) ,( v ) = 1 互 当“= 1 ,2 ,n 一1 时,e ( “) ,e ( v ) = 1 二维离散余弦逆变换的公式为: 作= 专萎n - i 善n - i 即) 即) 咖卜。s 等厅) c o s ( 掣忻) ( w ) = 寺e ( “) 层( v ) c ( ) c o s f 等厅b f 掣忻 u 柚v - o v , 上v , x ,y = 0 1 ,n - 1 式中,当“- - 0 ,v = o 时,e ( u ) ,e ( v ) = 1 抠 当“- - 1 2 ,v 一1 时,e ( “) ,e ( v ) = 1 二维离散余弦变换具有可分离的特性,所以,其正变换的你变换均可将二 维变换分解成一系列以为变换进行计算。 2 1 3 2 运动估计和运动补偿技术 运动估计使用与差分脉冲编码调制( d p c m ) 相类似的原理,考虑到相邻 图像之间的相关性,如果将两幅图像直接相减,将剩下的比原始的图像能量小 得多的残差,并且残差中各空间单位的能量的起伏也不会太大。在这种情况下 如果对残差作正交变化的话,变幻域的系数将以较小的低频分量为主( 比原始 图像要小得多) ,而且高频分量较小。随后的游程编码和熵编码将获得很高的 压缩效果。更好的办法是使用类似于d p c m 的方法,也就是运动估计和运动 补偿的方法。通过运动估计,参考帧可以更好的对当前帧作估计,这样得到的 残差就会更小。 运动估计就是通过对当前帧和参考帧的对比,计算出当前帧相对于参考帧 在位置上的偏移,这种偏移是以运动向量来衡量的,并且按照尽量减小匹配误 差的方法来获得运动矢量。运动估计是整个算法的核心,运动估计就是从视频 序列中提取运动信息的一整套技术,由最佳匹配获得运动矢量的表达式由式1 给出,设m 是当前帧图像l 中的一个块,v 是相对于参考图,的位移量。其 中运动矢量的可能搜索范围和匹配误差函数d ( 最小绝对值,最小均方差等) 的选择,可在实现过程中完成。 v ,= mi n 三d i ,。( i ) ,( 万+ 了) l x e m 一 v v ( v 是一个v 变量的集合) 式l :运动矢量计算公式 由此可知,运动估计需要对图像作分割,通常采用较为简单的方法,把图 像分成矩形子块,适当选取块的大小,估计出运动子块的位移,进行预测。在 这种方法基础上建立起来的运动补偿技术就是基于块的运动补偿技术。图二 是在实际系统中获取运动矢量的情况。对目标帧中的当前宏块在搜索区域内做 匹配,求得最匹配的宏块作为匹配宏块,匹配的原则有最小绝对值原则,最小 均方差原则等。而两者之间的位移就是所求的运动向量。这里包含几个问题, 首先是搜索窗口大小的确认,越大的搜索窗口将相对获得更好的解( 但这是相 对的,因为对于较小运动特性的图象序列,较小的搜索窗口就可以获得最优 解) ,但对算法时间复杂度而言,搜索窗口越大其复杂度也就最高,这需要在 两者之间做出权衡。其次是搜索算法的问题,最好的当然是全搜索,也就是对 搜索区域中的每个点都作匹配,全搜索算法可以获得在该搜索区域中的最优 解,但是全搜索算法的时间复杂度是最高的。为了提高效率,提出了很多其他 的寻求次优解或者相对最优解的快速算法。第三个问题就是宏块大小的选取, 首先要求宏块足够大,如果太小,很有可能匹配到灰度相同但却与场景却无关 的块,并且块太小也增加了编解码的运算量,而且需要保存或者传输更多的运 动矢量。宏块的选取也不能太大,因为太大的宏块可能包含复杂或多个运动向 量,匹配块就不能给出很好的估计。所有这些都是在编码效率和算法的时间耗 费之间的折中,这需要一套方案来规定这些问题。图像压缩标准就是规定了这 些细节的东西以及期望能够达到的性能和因此而要到达的设计目标和应用。 圜当前宏块囡匹配宏块 圈搜索区域 图表二:运动预测 运动估计涉及三种结构:i 帧,p 帧,b 帧。没有做运动估计和补偿而直 接编码的帧称为i 帧,这种帧可以作为随即存取点,但相比之下其压缩率没有 其它两种帧高。p 帧是参考过去的i 帧或者p 帧作前向预测得到的,编码效率 较高。b 帧是同时用前驱的i 帧或者p 帧和后继的i 帧或者p 帧作为参考帧做 预测得到的,其压缩率是最高的,同时由于不作为别的帧的参考帧,所以可以 保证其误差不会传递。各种类型的帧的相互关系见图三: 图三:包含各种类型帧相互关系的帧序列 运动补偿( m o t i o nc o m p e n s a t i o n ) 实际上是对运动图像进行压缩时所使用 的一种帧间编码技术。由于在一般情况下,相邻帧间的内容实际上没有太大的 变化( 场景切换等除外) ,有很大一部分甚至是绝大部分是相同的。运动补偿 技术就是将这种相关性去处,其原理如下,当编码其对图像序列中的第n 帧进 行处理时,利用运动补偿中的核心技术运动估计技术( m o t i o n e s t i m a t i o n ) ,得到第n 帧的预测帧n ,在实际编码传输时,并不总是传输第 n 帧,而是第n 帧与其预测帧之间的差值。如果运动估计十分有效,中数 据的概率基本上分布在零的附近,从而导致比原始图像第n 帧的能量小得 多,编码传输所需的比特数也就小,这是运动补偿技术能够去除信源中时间 冗余度的本质。 运动估计和运动补偿的原理图见图四。在编码部分( 编码帧之前的部 分) ,使用参考帧和当前帧来作运动估计获取运动向量,然后根据根据参考帧 作依赖于向量的叠加得到预测图像,运动补偿就是根据当前帧来减去估计的图 像,得到能量非常小的残差也就是所谓的编码帧。在实际中需要存储或者传输 的数据是编码帧和运动向量。在解码端( 编码帧之前的部分) 得到上述数据的 时候,由参考帧和运动向量可以得到预测的图像,随后将预测图像和编码帧 ( 残差) 相加就可以得到解码后的数据,也就是对当前帧的编码。这里有一个 值得注意的地方就是在编码端也存在有一个图像解码器的信号流,这是由于如 果直接使用当前帧的前驱帧作为参考帧的话,由于在解码端实际上是得不到这 卜i 、| p卜一 、 ,卟。对,、 ,忸jl够,一 b 一 v一_40, l p 吨 j一,慷】 ,b 、。*?l上fk ,i , 个真实的参考帧的( 除非传递给编码端) ,所以在除了第一个通过预测的解码 帧,其他的解码帧将不断随着时间的推移而与实际的当前帧不断增加误差。而 在编码端加上一个解码器回路以后,解码端和编码端的参考帧就可以同步,解 码帧和当前帧之间就不存在误差了。 运动补偿 当前帧 图四:运动补偿原理图 2 1 3 3 基于块的运动补偿和d c t 变换技术 基于块的运动补偿和d c t 变换技术就是将上述的两种方法配合起来使 用,以获得更佳的压缩编码效率。 d c t 变换以及后续的量化,之字形扫描,熵编码将很大的去除图像的空间 相关性以达到图像压缩的编码目的( 可以用于帧内编码) : 而运动估计和运动 补偿技术的使用利用了图像之间的时间相关性去处了相邻帧之间的信息冗余, 达到压缩编码的目的( 用于帧间编码) 。 基于块的运动补偿和d c t 变换的系统框图如图五所示: 图表五:基于块的运动补偿和d c t 变换系统框图 量化器是按照人类视觉系统模型的结论来作数据的压缩处理的。根据人类 视觉系统模型,人类对图像高频细节不敏感的特性,对低频系数使用较小的量 化步长,以获得较精细的精度:对于高频系数使用相对较大的量化步长,获得 较粗略的精度。在这个过程中,图像的信息会有所损失,所以量化过程是有损 编码技术。通常情况下,使用这种原则量化后大多数的高频分量将化为零,到 达压缩编码的目的。 量化后的需要将二维的数组转化成一维的排列方式。有两种二维到一维的 转换方式:之字形扫描( z i g z a g ) 和交替扫描。其中之字形扫描是最常用的 一种。经过之字形扫描后,低频分量排列在前高频分量在后,由于量化的高频 分量大多数为零,所以在做之字形扫描后,一维数组的排列为非零的低频d c t 系数后跟一长串为零的高频d c t 系数,这些为游程编码创造了条件。 随后的游程编码对于有连续的数据存在的时候可以很大程度的压缩,这种 压缩是无损压缩,可以安全的恢复出原始数据。 量化后作熵编码使数据的本身的相关性进一步减小( 熵编码与图像的内容 相对无关,只和变换量化后的数据有关) 。熵编码是统计编码,包括变长码字 的霍夫曼编码,算术编码等。主要是运用统计学的方法设计码字,对于出现次 数小的符号用长度较长的码字编码,出现出数多的符号则用短码字编码,从而 获得压缩数据编码的效果。 基于块的运动补偿和d c t 技术有帧间和帧内两种模式,帧内模式( i n t r a m o d e ) 主要使用d c t 及相关技术来完成对图像的压缩编码,比如i 帧和 j p e g 标准【z 9 j 等;而帧间编码( i n t e rm o d e ) 则使用了运动补偿来去除时间冗余 度,用d c t 技术来去除空间冗余度。 下- - d , 节将主要叙述目前存在的视频压缩标准,并主要就m p e g 4p a r t2 和h 2 6 4 ( m p e g 一4p a r t1 0 ) 作主要的论述。这些标准都是建立在基于块的运动 补偿和d c t 变换技术基础上的。 2 2 视频压缩编码标准综述 压缩编码是以香农信息论为基础发展起来的,国际标准化组织( i s o ) 和 国际电信联盟( i t u ) 针对不同的应用制定了一些列视频压缩的国际标准。 i s o 的j p e g 和m p e g 一2 标准取得了很大的成功并造成了深远的影响。其中 j p e g 对于静态图像的压缩领域占有重要份额而m p e g 2 标准是d v d 系统 和h d t v 的核心。i t u 的h 2 6 1 标准作为视频会议领域的标准并取得了成功。 目前我国也在制定自己的多媒体压缩标准a v s 。由于本文的目的是流媒体的可 靠性传输,本节将逐个的来介绍视频压缩的标准( 图像压缩的不在此讨论) 。 2 2 1i - i 2 6 1 h 2 6 1 标准 3 0 - 3 1 1 针对应用是针对视频电话,视频会议和其他的视频服务。 传输媒介的规定是在综合业务数字网上( i s d n ) 上上以p * 6 4 k b i t s 的速率串数, 这里的p 的范围是1 到3 0 。 h 2 6 1 所使用的压缩技术是基于块的运动补偿和d c t 方法,其框图和图 五相类似,其中的图像编码器的实际部分是d c t 和熵编码。h 2 6 1 将图像分割 成1 6 + 1 6 像素的宏块( m b ) ,对于4 :2 :0 的采样格式,它包含有4 个亮度块和2 两个色度块( 都是8 + 8 像素) 。并且使用8 * 8 的d c t 变换去除空间残差,用运 动估计和运动补偿回路来去除时间冗余( 帧间冗余) 。还有一个可选的二维回 路滤波器用来减少图像的预测误差和减少预测图像的方块效应。编码的数据包 括两类也就是d c t 系数和运动矢量。运动矢量的范围限制在1 6 个单位之内。 h 2 6 1 只支持对c i f 和q c i f 两种图像格式进行处理,由于希望编解码的延时 尽可能小( 视频会议) ,所以只利用前一帧作为参考帧作前向预测,并在1 3 2 帧之内需要对每个宏块进行至少一次的帧内编码。主要数据结构从大到小依次 为g o b ( g r o u po f b l o c k ) ,m b ,b l o c k 。 2 2 2h 2 6 3 h 2 6 3 标准口2 3 4 1 也是有i t u 提出的,是基于h 2 6 1 的框架结构的一个标 准。h 2 6 3 标准的发展分为三个阶段,h 2 6 3 ,h 2 6 3 + ,h 2 6 3 + + 。h t 2 6 3 的主 要目标是制定一个在公用电话网( p s t n ) 上传输的低比特率视频信号压缩标 准。与h 2 6 1 相比,有如下的不同:支持半像素运动补偿以提高图像压缩效 果;改进了包括3 dv l c 在内的可变长编码,h 2 6 3 把符号e o b ( e n do fb l o c k ) 也集成进了可变长编码;比h 2 6 1 支持更多的图像格式:减少了在g o b 层, m t y p e 和c b p 的开销。除了以上改进以外,还增加了提供了一系列可供选择 的改进这些改进放在h 2 6 3 标准的附录部分,比如:非受限的运动矢量 ( a n n e xd ) ,运动矢量的范围扩展到 3 1 5 ,3 1 ,在运动跨越图像边界时,由运 动矢量所确定的宏块位置可能有一部分落在边界之外,此时可用边界上的像素 值表示边界外的像素值,从而降低预测误差;用基于句法的算术编码替代霍夫 曼编码( a n n e xe ) 。是编码效率对于p 帧有4 的提升,i 帧有1 0 的提升;先 进预测模式( a n n e xf ) ,可以对宏块中的4 个8 * 8 亮度块分别做运动估计,还可 以使用交叠块做运动补偿( o b m c ) ,其运动矢量支持预测编码;p b 帧模式 ( a n n e xg ) ,此模式对参与双向预测的两个参考帧和该b 帧一起编码,以减 少单纯使用b 帧而引起的延时。 2 2 3h 2 6 4 h 2 6 4 1 3 5 】是由i s o i e c 与i t u t 组成的联合视频组( j v t ) 制定的新一代视频 压缩编码标准。在i s o i e c 中该标准命名为a v c ( a d v a n c e dv i d e oc o d i n g ) ,作 为m p e g - 4 标准的第十部分;在i t u t 中正式命名为h 2 6 4 标准。h 2 6 4 的主 要优点如下:在相同的重建图像质量下,h 2 6 4 可以比h 2 6 3 + 和m p e g 4 ( s p ) 减小5 0 码率;对信道时延的适应性较强:提高网络适应性,采用“网络友 好”的结构和语法,加强对误码和丢包的处理,提高解码器的差错恢复能力; 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级, 以适应不同复杂度的应用;相对于先期的视频压缩标准,h 2 6 4 引入了很多先 进的技术,包括4 4 整数变换、空域内的帧内预测、1 4 象素精度的运动估 计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比, 同时大大提高了算法的复杂度【3 “。 2 2 4m p e g 1 m p e g 1 标准1 3 是由国际标准化组织提出的标准,该标准包括系统,视 频,音频等部分。系统部分定义了将视频和音频数据结合起来的包结构。音频 部分利用人类听觉系统模型定义了一套去除冗余的方法。视频部分定义了 m p e g 1 视频编码的细节。它的发布日期是在i t u 发布h 2 6 1 的前后,它和 h 2 6 1 标准有很多的相似性。和h 2 6 l 相比,有如下的不同:解码端和编码端 的非对称性,由于m p e g - 1 主要是正对i 1 5 m b p s 的存储式的应用,其解码端 的复杂度比编码部分的复杂度要简单,以利于实际的推广:其次是由于是使用 半像素运动补偿,所以较h 2 6 1 而言去除了回路滤波器,运动矢量的范围也扩 展到6 4 个单位;m p e g 1 增加了对b 帧的支持( 对存储应用而言,延时不是 主要的因数) ,同时由于b 帧预测的复杂性,也增加了编码器的复杂度:对于i 帧的量化考虑了人类视觉系统模型。给出了一个量化矩阵,对d c t 系数的不 同部分运用不同的量化级别:d c t 直流系数( d c ) 使用左邻的帧的d c 系数 作为预测值作预测编码:m p e g 一1 增加了g o p ( g r o u po f p i c t u r e ) 结构,该结构是 一组有关联关系的帧序列组成。以i 帧开始后续p 和b 帧。 2 2 5m p e g 一2 m p e g 2 1 3 9 l 在1 9 9 5 年有i s o 和i t u 两大组织共同建立的标准,在i t u 内 部该标准的视频部分被称为h 2 6 2 。其主要的目标是解决m p e g 1 不能支持的 各行扫描信号的能力同时面向高级工业标准的图像和更高的传输率。m p e g 1 和m p e g 2 的主要区别为:在y u v 4 :2 :0 格式下,和m p e g 1 ,h 2 6 1 和h 2 6 1 相比色度分量在水平方向偏移了0 5 个像素;在y u v 4 :2 :0 格式下,m p e g 2 可以对交叠场进行编码;作为m p e g 一1 的后续标准,m p e g 2 增加了额外的 d c t 系数的扫描方式,可以使用块大小为1 6 8 的运动补偿技术;对于d c t 的 d c 系数做1 0 比特的量化等一些差别;可以支持不同的可伸缩性模式,空间可 伸缩性可以使不同的解码器从相同的比特流中获得不同的图像分辨率,时间可 伸缩性使可以使一个比特流能够解码成不同帧率的视频序列,s n r 可伸缩性更 提供了可以获得不同空间解析度的工具:提出了框架和级别的概念; 2 2 6m p e g 4 m p e g - 4 1 3 9 1 的目标被确定为:支持多种多媒体应用,可根据应用的不同要 求配置解码器。解码器是开放的,可以随时加入新的有效的算法模块。较之前 的两个标准而言,m p e g 一4 为多媒体数据要所提供了更为广阔的平台。它更多 定义的是一种构架,而不是具体的算法。 m p e g 4 提供的主要功能有:基于内容的交互性;编码效率的改进和并发 数据流的编码g 码率范围大,可以从1 0 k b s 到1 2 0 0 m b p s ;增强的抗误码特 性;基于对象的时空可分级性。m p e g - 4 的编码是基于对象的,这样就便于操 作和控制对象,而传统压缩方法是基于帧的压缩。这也是m p e g - 4 的最显著特 点。 在m p e g 4 中,通常一幅场景由几个v o 对象组成( v i s u a lo b j e c t ) 。v o 对象是三维的( 包括空间和时间三个维度) ,一个v o 对象由几个v o 对象层组 成( v o l ) ,每个v o l 代表了v o 的不同部分或者可变码流的不同层。v o l 在 某个时刻的存在叫做v o 平面( v o p ) ,v o p 的概念类似于帧的概念,不过这 里可以是任意形状的。同m p e g 2 一样m p e g 4 的v o p 也包括三种类型, 也就是i - v o p ,p v o p ,b v o p 。同m p e g 2 的g o p 对应,m p e g 4 用v o 对 象平面组( g v o p ) 来表示。 除了m p e g 4 基于对象的特性同其他标准不同以外,同m p e g 1 和 m p e g 2 相比提供了一下一系列的工具来提高编码效率:改进的d c 预测,这 个同m p e q 的前驱标准相比增加了当前块上面的块作为预测的候选;增加了 a c 预测工具,这是m p e g 4 中独有的方式,使用这种发式可以从当前块的左 面,左上角,上面的块中选择合适的作为预测块来预测当前块:同h 2 6 3 标准 相似,m p e g - 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论