(通信与信息系统专业论文)基于delaunay三角形网格的对象编码和空间可分级.pdf_第1页
已阅读1页,还剩56页未读 继续免费阅读

(通信与信息系统专业论文)基于delaunay三角形网格的对象编码和空间可分级.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着第三代移动通信和口网络的迅猛发展,视频业务已成为重要的通信业务。 人们对视频编码的要求不仅停留在编码效率方面,还要求在接收端具有编缉视频 的功能,甚至要求视频编码比特流能够适应网络性能的变化、用户需求和终端设 备的多样性。众所周知,基于块的编码方法在甚低比特率下,预测图像会出现块 效应。为了满足以上需求及克服块效应,本文针对基于网格的对象视频编码和空 间可分级编码进行探索和研究。 在基于对象的视频编码方面,首先,本文利用对象的形状信息把网格的最外 边界点限制在对象的轮廓处,在已往的网格预测的基础之上进行特殊处理,从而 把基于d e l a u n a y 三角形( d t ) 网格的视频编码应用到任意形状的对象编码中,并 分析了基于块和基于网格的对象编码的优缺点。其次,在分析已有网格生成准则 特点的基础上,本文提出了一种只利用图像边缘信息生成网格节点的准则。实验 结果表明此准则与其它准则相比,节点分布在最重要的关键点处,更有利于运动 补偿。最后,本文把基于网格的单目视频对象编码扩展到立体视频对象编码中, 进行了中间视图的合成。实验表明与基于块的方法相比,本文的结果能得到更好 的中间视图。 在空间可分级方面,首先,本文提出了一种基于d e l a u n a y 三角形网格的空间 可分级视频编码方法,可提供分辨率渐进式码流,并且可以消除基于块方法中出 现的块效应。该方案把目前已有的层间预测技术扩展到网格视频编码中,通过把 基本层生成的网格扩展到增强层,利用两层图像之间的运动和纹理相关性来提高 增强层的编码效率。实验表明这种两层分级编码方案的性能与单层编码相比,可 分级代价为y p s n r 下降0 7 d b 左右;与联播相比,性能有l d b 的提高。其次,本 文对两种同时利用时域和空域相关性的预测方法( 层间冗余预测和i ns c a l e 预测) 在网格空间可分级编码中的性能进行了比较。最后,利用层间运动信息的相关性 来减少单层网格视频编码所需时间,编码时间大约减少5 0 。 关键词:基于对象的编码d t 网格空间可分级层间预测 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h et h i r dm o b i l ec o m m u n c a t i o na n di p - n e t w o r k ,t h e v i d e os e r v i c eh a sb e e no n eo ft h em o s ti m p o r t a n tc o m m u n i c a t i o ns e r v i c e s i nt h es a m e t i m e ,p e o p l ee x p e c tt h a tt h ev i d e on o to n l yh a sh i g hc o d ee f f i c i e n c y , b u ta l s oc a nb e e d i t e d ,a n dh o p et h eb i ts t r e a m sc a l lb ea d a p t e da c c o r d i n gt ot h ev a r i a t i o n so ft h e a v a i l a b l ec h a n n e lc a p a c i t yi nn e t w o r k ,t h ev a r i e t yo ft h eu s e r s n e e d sa n dt h ec a p a c i t yo f u s e r s d e v i c e s a si sw e l l - k n o w n ,t h eb l o c k - b a s e dv i d e oc o d i n g u s u a l l yh a sv i s i b l e a r t i f a c t su n d e rv e r yl o wb i t - r a t ec o n d i t i o n i no r d e rt os a t i s f y i n ga l lt h ea b o v en e e d sa n d o v e r c o m i n gt h ev i s i b l ea r t i f a c t s ,t h i st h e s i sf o c u s e so nt h er e s e a r c ho nt h eo b j e c t - b a s e d a n d s p a t i a l l ys c a l a b l ev i d e oc o d i n gu s i n gd e l a u n a yt r i a n g u l a t i o n ( d t ) m e s h 。 i nt h er e s e a r c ho nt h eo b j e c t - b a s e dv i d e oc o d i n g ,f i r s t l y , g i v e nt h ek n o w l e d g eo f o b j e c ts h a p e ,t h i st h e s i sp u t st h eo u t s i d em e s hn o d e si nt h eo b j e c tb o u n d a r y , t h e nt h e v i d e oc o d i n gb a s e do nd tm e s hi s e x p a n d e dt o t h eo b j e c t - b a s e dc o d i n g a l s ot h e a d v a n t a g e sa n dd i s a d v a n t a g e so ft h i sm e t h o da r ea n a l y s e d s e c o n d l y , w i t ht h ec h a r a c t e r o fp r e s e n tm e s hd e s i g na l g o r i t h mi sa n a l y s e d ,an e wm e t h o di sp r o p o s e du s i n gt h ei m a g e e d g ei n f o r m a t i o n t h er e s u l t ss h o wt h a t t h i sm e t h o dc a np l a c en o d e si nt h em o s t i m p o r t a n tk e yp o i n t s a l s ot h eo b j c o t b a s e dv i d e oc o d i n gi se x t e n d e dt ot h es t e r e ov i d e o c o d i n g ,a n di su s e dt os y n t h e s i z et h ei n t e r m e d i a t ev i e w t h er e s u l ts h o w st h a ti th a sa b e t t e rp e r f o r m a n c et h a nt h eb l o c k - b a s e dm e t h o d i nt h es t u d yo ns p a t i a l l ys c a l a b l ec o d i n g ,as p a t i a l l ys c a l a b l ev i d e oc o d i n gs c h e m e b a s e do nd tm e s hi sp r o p o s e di no r d e rt oo f f e r i n gs p a t i a l l ys c a l a b l eb i ts t r e a m s i t c o m b i n e st h ep r e s e n ti n t e r - l a y e r p r e d i c t i o nt e c h n i q u ea n d t h em e s h b a s e dv i d e o c o d i n g ,a n de x t e n d st h em e s ho ft h eb a s el a y e rt ot h ee n h a n c e m e n tl a y e r t h e ni tu s e st h e m o t i o na n dt e x t u r ec o r r e l a t i o nt oi m p r o v et h ec o d i n ge f f i c i e n c yo ft h ee n h a n c e m e n t l a y e r s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ey p s n ro f t h ep r o p o s e dt e c h n i q u e sd e c r e a s e s a b o u t0 7d b c o m p a r e dw i t ht h es i n g l el a y e rm e s h b a s e dc o d i n ga n dh a s1d bg a i n c o m p a r e dw i t ht h es i m u l c a s t f u r t h e r m o r e ,t w om e t h o d s ( i n t e r - l a y e rr e s i d u a lp r e d i c t i o n a n di n s c a l e p r e d i c t i o n ) w h i c he x p l o r es i m u l t a n e o u s l yt h et e m p o r a la n ds p a t i a l c o r r e l a t i o na r ec o m p a r e di np e r f o r m a n c ef o rt h es c a l a b l ev i d e oc o d i n g t h i st h e s i sa l s o p r o p o s e sas c h e m eu s i n gt h ei n t e r - l a y e rm o t i o np r e d i c t i o nt or e d u c et h et i m eo fs i n g l e l a y e rv i d e oc o d i n g i tc a ns a v ea b o u t5 0 i nt i m e k e y w o r d s :o b j e c t - b a s e dc o d i n gd e l a u n a yt r i a n g u l a t i o nm e s h s p a t i a l l ys c a l a b l ev i d e oc o d i n gi n t e r - l a y e rp r e d i c t i o n 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盆避日期塑i :三:! q 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍是西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公开论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名:磕避 导师签名: 一差至:b 当一 日期迎塑:至:2 旦 日期捌:兰:! 旦 第一章绪论 第一章绪论 人类社会正走向信息时代,信息在人们日常生活中起着越来越重要的作用。 科学研究和统计表明,人类从外界获得的信息约有7 5 来自视觉系统,即大部分 是从图像或视频中获得的。随着i n t e m e t 和移动通信技术的发展,视频通信将是未 来通信领域的主要业务。由于视频的数据量非常大,而带宽资源非常有限,这就 需要对视频尽可能地压缩。随着数字信息在人们生活中的普及,人们对多媒体信 息的要求越来越高,已经不满足于被动地接收多媒体信息,而是根据个人的需求 爱好有选择地对自己感兴趣的多媒体数据进行接收,并对其中的内容进行编辑, 这就需要在编码时对视频中的每个内容进行单独编码,即基于对象的视频编码。 由于每个用户的终端设备、订购的服务不同,需要一种编码方式,使得一个编码 器的输出可以满足所有用户的需求,这就是可分级视频编码应该具有的功能。 1 1 研究背景及意义 传输一个分辨率为7 2 0 4 8 0 ,速率为3 0 帧秒,2 4 比特像素的视频节目,如 果不经过压缩,需要2 3 7 m b p s 的数据传输速率。可见未经压缩的视频需要相当高 的数据传输率,要使其应用到实际中就必须对视频进行压缩。研究表明视频图像 中存在各种冗余,比如空间冗余、视觉冗余、时间冗余等,充分考虑这些冗余可 以对数字视频进行高倍的压缩。 为了满足人们对视频压缩的需求,国际标准组织制定了许多视频编码标准。 这些视频编码标准主要分为两个系列。一个是i s o ( i n t e r n a t i o n a ls t a n d a r d s o r g a n i s a t i o n ) 的m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 制定的一系列视频标准,另一 个是i t u t ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ) $ 1 j 定的h 2 6 x 系列视频标准。 其中m p e g 序列包括m p e g 一1 、m p e g 2 、m p e g 4 、m p e g 7 、m p e g 一2 1 【l j ,h 2 6 x 包括h 2 6 1 、h 2 6 3 、h 2 6 4 t 2 1 。它们的基本框架是一致的。如图1 1 所示为h 2 6 1 的基本框架图。具有我国自主知识产权的a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) p 儿4 j 与 h 2 6 4 相比,编码效率相当,但a v s 的复杂度比h 2 6 4 更低。 基于d e l a u n a y 三角形网格的对象编码和空间可分级 帧内编码 出 图1 1h 2 6 1 视频编码基本框架 以上的标准中除了m p e g 4 e 5 】之外,其余都采用波形编码技术。新一代编码技 术的基本思想是用更复杂的图像结构模型和人的视觉系统特性来提高编码效率。 这些技术推动了基于对象的编码、基于模型的编码和基于语义的编码等技术发展。 基于对象的编码认为输入的图像是三维真实场景在二维平面的投影,场景中的每 一个真实物体在图像中都对应一个区域,每个视频对象包括三方面的信息:形状、 运动、纹理信息。形状采用链表、区域等方法描述,运动信息采用预测方法进行 编码,纹理信息采用d c t 或小波变换等方法进行编码。基于模型的方法通过建立 一个合适的网格模型来描述图像信号,在编码端和解码端需要建立相同的网格模 型,在编码端用网格模型分析输入图像中模型的变化参数,在解码端用网格模型 及其变化参数来合成输出图像。由于编码传输的是模型参数,这种方法具有较高 的编码效率。许多的研究者在这方面进行了深入的研究【6 】【7 】。描述图像结构的网格 模型分为3 d 人脸模型和2 d 网格模型。语义视频编码用具有行为的模型物体描述 视频序列,模型物体用真实物体的行为来代表真实物体,比如具有适当的脸模型 的语义编码器可以传输命令“微笑”,而编码器会知道如何使人脸模型变形来使它 微笑。 m p e g 4 中提出的基于对象的压缩编码技术充分利用了人眼视觉特性。研究表 明,边缘和轮廓信息对于人类视觉系统是非常重要的。纹理信息具有相对的重要 性,当与轮廓信息在一起时会影响用户的感觉。m p e g 4 从轮廓、纹理思路出发, 提出了基于对象的视频编码方案,对每一个对象单独编码,并不考虑各个对象之 间的关系。在解码端,每个对象解码之后可以进行对象合成。这也称作对象可分 级编码。这种方法可实现对图像内容进行访问、编辑和回放等交互功能,适应多 媒体信息的发展趋势。 在所有视频编码方案中,运动估计起着重要的作用,它消除了视频的时间冗 余度,提高了编码效率。运动估计一般有两种方法:一种是采用块的方法 5 】,每一 第一章绪论 个块中的像素具有相同的运动矢量,由于具有简单、易于硬件实现的优点而被广 泛应用,如m p e g 2 、h 2 6 3 、h 2 6 4 。由于每个块只是考虑简单的平移,而没有考 虑旋转、缩放等运动,因此并不能反映实际的运动。这使得块之间的运动不连续, 在低比特编码情况下,解码图像常常出现明显的块效应;另外一种是采用网格的 方法 8 】 9 】【1 0 1 【1 1 】,图像由分布在图像中的网格节点来连接( 剖分) 。这种方法先估计 节点的运动矢量,再由节点的运动内插出每个像素的运动矢量。可以采用不同的 方法内插出像素的运动,比如仿射变换,它可以考虑到旋转、缩放等复杂运动, 所以更能反映实际的运动情况。而且得到的运动矢量是光滑的,在低比特下编码 情况下,块效应不明显。网格分为规则网格和不规则网格。不规则网格根据图像 内容生成节点,节点分布在图像的边缘处。这些地方常常是运动区域,所以在同 样的节点数情况下,它更能反映图像的运动。不规则网格中的d t 网格由于其本身 的特点而在网格中占据重要的地位。m p e g 一4 中也采用了一种网格模型基编码技 术,它对任意形状的对象进行网格编码,网格节点分布在对象的边界和内部。标 准中规定了编码网格节点的位置和运动矢量的码流格式,但对如何生成网格和如 何进行运动估计都没进行规定,而是作为开放性的问题留待进一步研究。本文研 究这一基于模型基的对象编码问题。 随着网络和多媒体的发展,两者已经密不可分。由于网络传输条件不稳定, 要求视频编码码流能在网络上渐进式传输,编码能够适应网络的变化,接收端可 以接收到最基本质量的视频。目前用户通过移动设备访问多媒体资源的需求在逐 渐增加,但由于通信环境的影响、用户的需求不同、订购的业务不同、用户的终 端设备能力不同,每个用户所需的视频码流就不同。解决这类问题的最好办法是 可分级视频编码( s c a l a b l ev i d e oc o d i n g ( s v c ) ) t 汜】【1 3 】。可分级视频编码是指通过单一 编码器提供不同层次的码流,用户根据不同需求解码对应不同层次的码流,从而 获得不同质量的视频。码流采用分层格式,第一层提供最基本的解码质量,叫做 基本层,其他层提供更高的质量,这些层叫增强层。可分级编码分为时间可分级、 空间可分级、质量可分级。可分级视频编码主要解决网络对视频信息传输的限制, 在减少视频存储量等方面有重要的作用。当网络带宽较小的时候,可分级编码只 保证基本层的视频信息被传输,并根据实际的网络环境决定是否传输增强层的视 频信息以使得解码图像质量得到增强,从而实现自适应性。这样的方式可以保证 拥有网络连接的大部分终端都能浏览多媒体信息,而不会出现无法浏览等情况。 本文将针对空间可分级进行研究,提出基于d t 网格的空间可分级视频编码方案。 4 基于d e l a u n a y 三角形网格的对象编码和空间可分级 1 2 研究现状及存在的问题 1 2 1 基于对象的编码研究现状及存在的问题 m p e g 4 最早提出了基于对象的视频编码【5 】,它对每一个分割出来的对象进行 单独编码,并且编码每个对象的形状。m p e g 4 采用基于块的方法进行运动估计, 对那些不包含在对象内的像素进行特殊处理。目前在这方面的研究主要集中在如 何提高运动估计速度【1 4 】和提高形状编码效率。但这些方法都是基于块的方法,在 低比特率下,都容易出现块效应。基于网格的运动估计可以使块效应不明显。有 大量文献研究基于网格的视频编码。文献 9 】首先找到灰度方差最大的那个三角形, 在这三角形内用l a p l a c e 边缘检测算子求得灰度变化最大的点作为新插入节点,然 后对网格节点采用伞形匹配算法进行运动估计和补偿。文献 1 0 在冗余小波变换域 提取特征点和运动潜在区,网格顶点的运动估计采用结合运动潜在区在时域进行 块匹配的运动估计和运动补偿方法,运动补偿则通过三角形仿射变换完成。 这些文献都是用d t 网格对整帧图像进行剖分,进而把整帧作为一个对象进行 编码。通过对每个网格节点的运动估计,内插出每个三角形内像素点的运动矢量, 从而由上一帧的参考帧来补偿当前帧的内容,实验表明在低比特率应用中,与 h 2 6 1 、h 2 6 3 相比有一定的优势。为了实现基于内容的视频操作,编码端就必须 对每个对象单独进行网格剖分。文献 1 5 1 6 】 1 7 用d t 网格对任意形状的视频内容 进行剖分,进而实现基于网格对象编码。文献中的网格生成方法结合了时域中的 运动信息和空域中的梯度信息来生成网格节点,但生成网格所需时间比较长,而 且对i - v o p 进行网格描述时,必须等下一帧到来之后才能对i - v o p 生成网格。本 文将在文献 1 5 1 的基础之上,提出一种新的网格节点生成准则,并比较了各种网格 生成准则的性能。 立体图像编码目前也是一个研究热点,如何进行任意形状的立体对象编码是 其中的一个研究方向。文献 1 8 】采用d t 网格模型基对整帧立体图像进行视差估计, 并用与d t 运动估计类似的方法来进行立体图像视差估计,在视差估计时结合了立 体图像的条件限制。文献 1 9 2 0 研究了基于对象的立体视频编码,文献 1 9 中首 先利用视差估计算法得到视差场,然后由图像的特征和视差场来将场景中的前景 运动对象分割出来,提取它的边界、纹理、运动参数等信息,再对每一个对象进 行编码。文中采用规则三角形生成网格节点,然后估计每个节点的视差。文献 2 0 1 对左通道对象采用m p e g 一4 中的编码方法,右通道对象采用视差估计和运动估计 联合预测的方法。本文将在基于d t 网格视频对象编码的基础上对任意形状立体对 象的视差估计进行研究,并对中间视图进行合成。采用块的方法得到的视差是不 连续的,合成的中间视差图像并不理想,而基于网格的方法能得到更好的中间视 第一章绪论 图。目前国外也有用3 d 网格对立体对象图像进行编码的研究口1 】【2 2 1 1 2 3 1 ,这种方法 不需要合成中间视图就可以实现任意视角的对象显示。 1 2 2 空间可分级研究现状及存在的问题 近年来,研究者对空间可分级进行了大量研究,m p e g 2 中提出的空间可分级 中增强层编码器的预测图像是增强层的时间预测图像与基本层的空间预测图像的 加权和。权重可以是宏块级自适应的。文献 2 4 1 对m p e g 2 中两层编码宏块模式选 择方法进行了改进,两层中相对应的宏块或者都为帧间模式,或者都为帧内模式。 在帧内模式求运动矢量时,联合考虑了基本层和增强层的预测误差。该方法节约 了宏块模式和运动矢量的一个集合,从而达到降低比特率的目的。 继h 2 6 4 a 、,c 制定成功后,联合视频专家组j v t 立即开展了相应的分级编码 技术的制定工作,目的是在h 2 6 4 a v c 的基础上提供完整的时域、空域、s n r 和 复杂度可伸缩性工具,并将其纳入n h 2 6 4 a v c 标准的扩展中。其中的空间可分 级是通过分层方式来实现,它的基本概念和已有标准m p e g 2 、m p e g 一4 中的类似, 但加入了一些层间预测方法以提高压缩效率。每个不同分辨率的空间层对应码流 中的一个层。由于同一时刻不同层的纹理和运动信息具有很强的相关性,所以可 以通过层间预测来消除这些纹理和运动冗余。这些层间预测技术包括层间帧内纹 理预测、层间运动信息预测、层间残差信息预测【2 5 1 。文献 2 6 中提出了一种新的预 测模式,它将增强层的成分分为高频分量和低频分量,高频分量由本层中的信息 预测,低频分量用基本层中的信息预测,并从理论上分析了该方法的优势。以上 方法是在时域中用块的方法进行运动估计,而文献 2 7 采用小波域视频空间可分级 方案,该方法是在小波域进行运动估计。从最低分辨率开始,利用参考帧的最低 频子带对目标帧的最低频子带进行基于块匹配的运动估计。目标帧的高频子带经 如下过程预测:首先用参考帧对目标帧的下一层较高分辨率下的l l 子带进行运动 估计,并利用重叠块补偿技术得到目标帧的下层l l 子带的预测,然后对该预测子 带进行一级小波分解,进而获得次低分辨率下三个上层高频子带的预测。迭代进 行上述步骤,即可得到各个分辨率下的高频预测子带。 目前对空间可分级的研究大部分集中在基于块的空间可分级,许多研究者都 在考虑如何更好地利用层间相关性来提高编码效率,但由于编码是基于块的运动 补偿,在低比特率下容易出现块效应。本文将在基于块方法的基础上把基于网格 的方法应用到空间可分级中,提出了一种基于网格的空间可分级方法,该方法不 仅可实现空间可分级比特流,还可以部分消除块效应。 基于d e l a u n a y 三角形网格的对象编码和空间可分级 1 3 本文主要工作及内容安排 本文主要研究了基于网格的对象编码和基于网格的空间可分级视频编码。 在对象编码方面,首先研究了m p e g 4 中基于对象视频编码的基本原理,实 现基于d t 网格的对象编码。其次分析已有网格的生成方法的特点,提出了一种新 的网格生成准则。并把基于对象的编码方案扩展到立体视频编码中,进行了中间 视角图像的合成。 在空间可分级视频编码方面,借助d t 网格的特性,提出一种基于d t 网格的 空间可分级视频编码方法。该方法不仅能提供空间可分级的功能,而且部分消除 了基于块的方法在低比特率下出现的块效应。同时利用空间可分级编码中的层间 运动预测,提出了一种方法以减少单层网格视频编码所需时间。 本文的其余章节安排如下: 第二章对m p e g 4 中的基于对象视频编码进行了介绍,对可分级视频编码的 基本概念及特点做了综述。这些基本概念将会在第三章和第四章中用到。 第三章利用d t 网格对任意形状对象进行编码,比较了各种网格生成准则的 性能,比较了基于块和基于网格的对象编码的性能,分析了目前基于网格的对象 编码存在的问题,并对立体图像中任意形状的对象编码进行了研究,用网格视差 估计合成了中间视图。最后对基于网格视频编码的一些应用给出了例子。 第四章分析了m p e g 4 空间可分级中的技术。利用层间相关性,提出了一种 基于d t 网格的空间可分级编码方法,比较了两种同时利用空间相关性和时域相关 性方法的性能。同时利用层间运动预测的方法加快网格单层视频编码的速度。 第五章是对本文工作的总结,并对以后的工作提出展望。 第二章对象编码及空间可分级简介 第二章对象编码及空间可分级简介 在以往的大多数视频编码标准中,编码都是针对整帧进行。而随着多媒体技 术的发展,人们对多媒体的交互功能要求越来越高,这就需要码流能区别不同的 对象。m p e g 4 就是针对这种需求应用而产生,它采用基于对象的编码技术,对每 个对象单独进行编码。基于对象的编码也称为对象可分级,码流对应原图像中空 间相邻的各个不同的对象。此外,目前用户的终端设备多样化越来越明显,如何 针对不同的用户设备提供不同分辨率的视频是一个值得研究的问题。本章将介绍 基于对象的视频编码和可分级视频编码相关理论。 2 1 基于对象的视频编码 基于对象的编码表示中,对象是视频组成的最小单位。一个对象除了具有纹 理和运动这两个基本性质外,还具有独立的形状。m p e g 4 编码标准视频部分提供 了对视频对象的欣赏、访问和操作的方法,同时支持在各种速率条件下的分级和 容错能力。m p e g 一4 的设立标准是定义新的视音频编码标准,来满足在通信、交互 式娱乐、广播电视以及上述三个领域的交互融合所产生的新服务模式中的需求。 2 1 1 基于对象编码的功能 ( 1 ) 基于内容的交互性 支持在无需转换码流情况下进行对象的操作与比特流编辑;支持自然与合成 数据混合编码;增强的时域随机存取。 ( 2 ) 基于内容的可扩展性 内容可扩展意味着给不同的对象分配不同的优先级,对于比较重要的对象可 以分配高的优先级,时域分辨率、空间分辨率和质量可以更高。这样在有限的网 络资源中自适应地丢去不重要的部分。 2 1 2 编码数据结构及编码框架 为了实现基于对象的编码,m p e g 4 中引入了v o ( v i d e oo b j e c t ) 的概念来实现 基于内容的表示,这一概念是基于对象的表征方法的基础。m p e g 4 对视频对象( v o ) 的定义【2 8 1 是:用户可以访问( 比如定位和浏览) 和操纵( 比如剪切和粘贴) 的实体。视 频对象可以是视频中的某一个物体,如新闻解说员的头肩像;也可以是计算机产 生的二维或三维图形;还可以是原来视频标准中的整帧,从而与前面的标准兼容。 在m p e g 4 的校验模型v m ( v e r i f i c a t i o nm o d e l ) 中,v o 主要被定义为画面中分割出 基于d c l a u n a y 三角形网格的对象编码和空间可分级 来的不同物体,每个v o 由三类信息来描述:运动信息,形状信息,纹理信息。m p e g 4 的视频码流提供了对视频场景的分层描述,一个m p e g 4 视频场景中可能包含多个 视频对象。 ( 1 ) 视频场景( v s :v i d e os e s s i o n ) 它位于数据结构层的最高层,是其它层数据的入口。一个完整的视频包含多 个v s 。 ( 2 ) 视频对象( v o :v i d e , oo b j e c t ) 如前面所述,一个视频对象对应着场景中的一个特定的对象,可以是任意形 状的对象,也可以是一个矩形帧。 ( 3 ) 视频对象层( v o l :v i d e oo b j e c tl a y e r ) 基于对象编码的一个功能就是对不同的对象分配不同的质量。每个对象可以 分别进行空间、时间、质量可分级,解码端可以根据用户自己的需求( 终端设备能 力、服务需求、带宽) 进行对应的解码。v o l 分为基本层和增强层。基本层只有一 个,代表最基本的需求,增强层可以有多个,对应不同的需求,每增加一个增强 层,对应的视频质量就相应地提高。 ( 4 ) 视频对象平面组( g o v :g r o u po f v i d e oo b j e c tp l a n e s ) g o v 可以提供对码流的随机访问点,g o v 是任选的。 ( 5 ) 视频对象平面( v o p :v i d e oo b j e c tp l a n e ) 一个v o p 是对一个视频对象( v o ) 的时间采样,对v o p 编码就是针对某一时刻 该帧画面v o 的形状、运动、纹理信息进行编码。一个普通的视频帧可以用矩形的 v o p 来表示。 概括而言,m p e g 4 的视频由多个v s 组成,v s 是一个或多个v o 的集合。v o 包含一个或多个v o l ,v o l 包括一系y i j v o 在时间上的采样,所以v s 是整个场景在 某段时间上的图像序列。v o 序列是从v s 中提取的不同空间对象目标,v o l 序列是 v o 的不同质量层( 基本层和多个增强层) 。v o p 序列是v o 在不同层的时间采样, m p e g 一4 的视频编码就是基于v o p 的。显然,视频对象编码是建立在视频对象分割 的基础上的,虽然视频分割一直是一个研究的热点,但目前的技术仍然达不到很 好的效果,在m p e g 4 中没有推荐视频分割的技术,它鼓励研究人员开发出有效的 视频分割方案 2 9 3 0 1 。m p e g 4 校验模型中假设已经分割出了视频对象,再对它们进 行编码。 如图2 1 所示可以把一幅场景分为三个v o 。 第二章对象编码及空间可分级简介 、 4 一 , 图21 视频场景由三个v o 组成 图22 是m p e g 4 的编码器框图。第一步是v o 的形成,先从原始视频流中分割 出v o ,再由编码控制机制为不同的v o 以及各个v o 的三类信息分配码率,对各个 v o 分别独立编码,最后将各个v o 的码流复合成一个位流。解码器基本上为编码器 的反过程。图23 是v o p 的编码框图。 原始图像 v o p 输 罔2 2m p e g j 视频编码结构 _ _ 状编日l 理盐晦 图2 3 v o p 编码框图 2 i3m p e g 4 中的对象编码技术 m p e g 4 中每个对象由形状、运动、纹理信息来表示,编码主要是对对象的这 三类信息进行编码。它们分别采用不同的方法进行处理。 f 1 ) 形状编码川 t , bh 醚 ! !至王里! ! 竺竺坚三苎丝旦登塑翌墨塑里塑兰型里坌塑 m p e g - 4 把形状信息分为两种,一种是二值形状信息,其中形状信息由。和1 来 表示。o 代表此像素不属于奉对象,此像素是透明的,1 代表此像素属于本对象, 此像素不是透明的。本文主要用到二值形状信息,二值形状编码先用一个1 6 x 1 6 倍 数的最紧矩形框把目标对象框住,然后按照1 6 1 6 的b a b ( b i n a r y a l p h a b l o c k ) 块 进行。b a b 分为三种情况,边界块、透明块、不透明块如图24 所示。二值形状 信息编码采用基于块的运动估计,辛h 偿技术,可以是无损或有损编码。另一种形状 信息是灰度形状信息,每个像素形状值的取值范围为0 2 5 5 ,0 代表此像素是透明 的,1 2 5 5 代表此像素的透明程度,2 5 5 代表完全不透明。编码采用与纹理编码相 同的技术。灰度级形状信息的引入主要是为了使前景物体叠加到背景时进行“模 糊”处理,不至于边界太明显、太生硬。如图25 所示,左部分图为用二值形状信 息合成的效果图,右部分为用灰度形状信息合成的效果图。从中可以看出灰度形 状信息的合成效果更能让人产生真实感。 图2 4 二值形状信息的块分类图2 5 二值和敏度形状信息对合成场景的影响 ( 2 1 运动信息编码 在m p e g 一4 的校验模型v m 中,运动估计和运动补偿采用基于块的方法。与以 前的编码标准一样,v o p 也有三种编码模式:帧内编码( i - v o p ) ,帧问前向预测 ( p v o p ) ,帧间双向预测编码模式( b v o p ) 。对于完全在v o p # b 但在边框内 的宏块,不作运动估计:对完全在v o p 内的宏块做与h2 6 3 类似的运动估计:对部 分在v o p 内,部分在外的宏块,用修改的块匹配( 多边形匹配) 技术进行运动估 计。匹配误差由块中属于v o p 内部的像素与参考块中相应位置像素值的绝对误差 和( s a d ) 来度量。由于每一个v o p 需要能够独立编解码,因此在运动估计时, 不能采用参考v o p 之外的像素。而在计算s a d 时可能需要这些像素值,可以采用 “重复填充”技术来根据v o p 内部的像素填充这些v o p 外的像素值。 由于块运动估计时在低比特率下,解码图像容易出现块效应。m p e g 一4 中也提 出一种基于网格的编码方式,但只规定了编码节点的位置和运动的码流格式,对 于如何进行运动估计等并没有规定,本文尝试把针对整帧的网格编码方法,扩展 第二章对象编码及空间可分级简介 到任意形状的对象中。本文主要对不规则网格中的d t 网格进行研究。 f 3 1 纹理编码 这里的纹理信息包括两种:一种是i v o p 中的图像,另一种是p v o p 、b - v o p 采用运动补偿产生的残差图像。m p e g 一4 对这些纹理的编码仍然采用d c t 编码方 案,即对每一块进行d c t 变换、量化、变长编码。这些块需要分别处理: v o p # i 的块不用编码;v o p 内的块采用传统的d c t 方法i 一部分在对象内,一部分在对 象外的块需特殊处理。对于这些块可以采用形状自适应d c t 方法,或者先采用重 复填充的方法对对象外部的像素进行填充,再采用传统的d c t 方法,这样可以增 加块内的空域相关性,有利于减少空间冗余。形状自适应d c t 方法编码效率更高, 但复杂度也高。 2 2 可分级视频编码 随着通过i n t e r n e t 传播多媒体的需求量增加,在网络中传播视频变得越来越重 要。如图26 所示,服务器通过网络给各种用户提供视频。 图2 6 可分级编码的应用 由于连接到服务器的网络性能、客户端的处理速度和要求的服务性能均不同, 服务器需要对同一个视频提供不同的数据率来满足各种需求。网络和可利用的信 道容量的差异、信道的快速变化等因素使得如何提供可自适应变化的码流成为视 频编码的一个挑战 3 2 1 。对于视频点播等点对点业务,每一个客户可能在不同的时 间需要视频服务。由于客户终端能力的不同、接入网络性能的不同,服务器必须 同时提供不同码率的视频数据以满足不同用户的需求。因为可分级编码的码流容 量比那些非可分级编码的总容量更少,所以可分级编码可以减少服务器中的视频 存储容量。对于视频广播等业务,不同码流的业务是必须同时开始的。在这种情 况下所有不同的码流视频数据都需要同时发送一次。可分级可以减少服务器的存 ! !堇王堂坚三鱼堡旦堡塑翌墨塑些翌至塑里坌望 储容量和减少传输网络的负担。在i p 网络中,信道可用带宽的时域变化远远比服务 器的反应速度快。如果码流是非可分级编码,信息包的延时和丢失可能使得解码 端中的某一帧完全丢失:如果码流是可分级的,则它可以通过对基本层赋予更高 的保护权限,对增强层赋予更低的保护权限,优先丢去增强层的信息来解决这个 问题。对于电话视频会议这种要求低时延的业务,可分级可以根据网络的情况来 动态地调节必要的传输数据,达到低时延的要求。 与单层视频编码相比,可分级需要更高的计算复杂度、更高的码率。由于在 解码某一增强层时需要先解码前面的基本层和增强层,解码端的复杂度也相应地 增加了。 可分级编码分为时间可分级、空间可分级、质量可分级口3 。码流采用分层 语法,第一层提供蛀基本解码质量,称为基本层,其他层提供更高的质量,定义 为增强层。解码相应的增强层必须先解码前面的基本层和增强层。图27 为个三 层可分级结构的示意图。 图27 二层可分级结构示意图 质量可分级 在这种方法中,所有层具有相同的空间分辨率,编码器通过不同的量化步长 使得每一层具有不同的图像质量。每一层的解码质量都比前一层的解码质量更好。 在网络中,服务器可以根据用户订购的不同业务,为不同用户提供不同质量档次 的视频。由于带宽的限制,用户可以先浏览低质量的视频,得到视频的基本信息, 获知此视频是舌符台用户要求。图28 为三层不同质量的图像。 ( a ) 2 89 d b ( b ) 3 54 d b( c ) 4 07 d b 图2 8 质量可分级示意图 在4 9 m b p s 的比特率下,m p e g 一2 质量可分级的图像质量比不用可分级单层编 码得到的图像质量低05 11d b 。 ( 2 1 时间可分级 基本层是用不可分级的单层视频编码器对较低的帧率视频进行编码,而增强 层对基本层跳过的帧进行编码,将低帧率的重建帧作为增强层的预测。时间可分 第二章对象编码及空间可分级简介 级在快速浏览视频中有重要的意义。在同样的比特率下,m p e g 2 时间可分级的图 像质量只比不可分级编码器低0 2 o 3d b 。 增 强 层 基 本 层 图2 9 时间司分级方案 ( 3 ) 空间可分级 为了适应不同终端设备的要求,空间可分级编码提供的每一层码流对应不同 大小的空间分辨率。空间可分级在我国的数字电视广播中具有重要的意义f 3 5 1 。在 我国,将会出现s d t v 和h d t v 长期共存的局面。采用空域可分级技术的s d t v 和 h d t v 广播兼容系统的框图如图2 1 0 所示。 清 宽 图2 1 0 采用空间可分级的数字电视广播系统框图 从图中可以看出,节目制作商只需提供单一的高清级别的节目;网络营运商 将高清分辨率的信号下采样作为标准分辨率,编码为基本层,用增强层为用户提 供高清质量的节目。这样仅占用一路高清节目的带宽就可以为不同的用户提供不 同的信号。 基于d e l a y 三角形网格的对象编码和空间可分级 酊e l 笺飞! i 慕眨涌 r i 亨= 二。_ :1 卜葶二。-眨 第三章基于d t 网格的对象编码 第三章基于d t 网格的对象编码 对象编码的功能是使解码端可以根据自己的需求解码任意感兴趣对象。目前 的编码标准中只有m p e g 4 中提出了基于对象的视频编码。m p e g 4 的校验模 型( v m ) 中提供了一种基于块的方法,由于把整个块中每个像素的运动认为相同, 运动只是考虑了平移,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论