(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf_第1页
(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf_第2页
(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf_第3页
(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf_第4页
(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(信号与信息处理专业论文)三维视频编码若干关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 i 摘摘 要要 近年来,随着计算机图形学和计算机视觉等领域的快速发展,三维视频编码 已经成为视频压缩领域的热点研究课题。同时,以阿凡达为代表的立体电影 的巨大成功也预示着三维视频技术大众化应用的广阔前景。 由于三维视频的数据 量巨大,研究高效的三维视频压缩编码技术显得至关重要。同时,实际应用中网 络环境、用户终端等方面的多样性也对视频编码技术的可伸缩性提出了要求。作 为多视角视频编码的一个重要分支, 非对称立体视频编码以其更为高效的压缩性 能和接近普通立体视频的主观感受等优点而广受关注。因此,基于非对称立体视 频编码的这些特点进行可伸缩立体视频编码研究具有一定的理论和应用价值。 另 外,作为三维视频的重要组成部分,深度视频的码率在三维视频总码率中占有不 少的比重。而目前的视频编码技术多是基于纹理视频特点而设计,并没有充分利 用深度视频的特点。 因此, 研究深度视频压缩技术有一定的理论价值和应用价值。 本文基于非对称立体视频的主观特性,联合视角间预测和层间预测技术,对 可伸缩立体视频编码技术进行研究。另外,本文通过分析深度视频的特点,研究 和改进深度视频压缩技术。本文主要工作及创新之处如下: 1. 提出了一种新的具有空间可伸缩性的立体视频编码方法。 本文针对非对称立体视频编码压缩性能高、 主观视觉感受接近于普通立体视 频等特点,利用 h.264/avc 扩展标准可伸缩视频编码的分层编码理论,提出了 一种具有空间可伸缩性的非对称立体视频编码框架。 本文在立体视频非基本视角 编码中引入了空间可伸缩性并在各空间层编码中利用了视角间预测技术。 经本文 算法编码的码流可以根据不同的应用条件与需求, 解码为非对称立体视频或对称 立体视频。在提供分辨率可变的情况下,尽可能的提高立体视频压缩性能。 2. 改进并探讨了深度视频压缩技术。 本文基于深度视频纹理简单、内容渐变等特点,在充分分析了目前编码技术 应用于深度视频压缩时的不足之后, 提出了针对深度视频特点和现有编码不足的 深度视频压缩方法。 本文研究改进了深度视频压缩中的模式选择过程并对深度视 频的空间自适应量化编码技术进行了探讨。 实验结果表明, 本文提出的可伸缩立体视频编码算法的压缩性能要明显优于 其他具有相同可伸缩性的立体视频编码方案的压缩性能。同时,经本文改进的深 度视频编码算法的压缩性能也要优于现有算法的压缩性能。 关键词关键词: 三维视频编码, 非对称立体视频编码, 可伸缩视频编码, 深度视频压缩。 abstract ii abstract recently, with the development of computer graphics and computer version, techniques toward three dimension (3d) video have become a hot topics in the video coding area. meanwhile, the great success of stereo video such as avatar indicates the huge market potential of the 3d video. since the huge mount of 3d video, it is important to develop more efficient compressing techniques for 3d video. in actual situation, the condition of network bandwidth, capacity of client is different; therefore, researches on the scalability of 3d video coding are valuable in both of the theory and application. as an important branch of multiview video coding, asymmetric stereoscopic video coding attracts more and more attentions because of its higher compression efficiency and approximate subjective quality compared to traditional stereoscopic video. based on these properties of asymmetric stereoscopic video coding, researches on the scalability of stereoscopic video coding are of both theoretical significance and prctical value. as a important part of 3d video, depth video occupies many proportion in 3d video bitstream. however, the existing coding techniques are designed toward texture video and do not fully consider the characteristics of depth video. therefore, researches of depth video coding are of both theoretical significance and practical value. based on the properties of asymmetric stereoscopic video coding, the thesis investigates the scalability of asymmetric stereoscopic video coding by combining techniques of the inter-view prediction and inter-layer prediction. in addition, the thesis analyses the characteristics of depth video and investigates the techniques for depth coding. the main contents and novelties of the thesis are as follows: 1. the thesis proposes a new coding structure of asymmetric spatial scalable stereoscopic video coding. combined the advantages of asymmetric stereoscopic video, such as high compression efficiency and approximate subjective quality compared to traditional stereoscopic video, the thesis proposes a new coding structure of asymmetric spatial scalable stereoscopic video coding with the help of the scalable coding theory of the scalable video coding. the thesis introduces spatial scalability in the non-base view coding and enables inter-view prediction in all of the spatial layers. the coded bitstream can be decoded as asymmetric stereoscopic video or symmetric stereoscopic abstract iii video based on different conditions and preference. the proposed method improves coding efficiency of stereoscopic video as much as possible while providing resolution scalability. 2. the thesis investigates and improves the techniques of depth video coding. based on the characteristics of depth video and disadvantages of existing coding techniques, the thesis proposes improved methods for depth coding aiming at these problem. the thesis investigates the mode decision process of depth coding and discusses spatial adaptive quantization for depth video coding. experiment results show that, the proposed asymmetric spatial scalable stereoscopic video coding scheme has significant improvement in the coding efficiency compared to other coding schemes providing similar properties; moreover, the depth coding schemes proposed in the thesis improve the coding efficiency of depth coding. key words: 3d video coding, asymmetric stereoscopic video coding, scalable video coding, depth video coding. 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰 写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了 明确的说明。 作者签名:_ 签字日期:_ 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中 国学位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 公开 保密(_年) 作者签名:_ 导师签名:_ 签字日期:_ 签字日期:_ 第 4 章 深度视频编码技术研究 7 第 1 章 绪论 第 1 章 绪论 1.1 研究背景 作为信息时代的标志之一, 数字视频技术在近几十年来的迅猛发展极大的推 动了社会的进步,也给人们的生活带来了巨大而深刻的影响(钟玉琢,1999;刘 甘娜 等,2004;王小鹏 等,2006) 。视频信息以其直观、高效、确切、广泛等 优点,深受人们的喜爱。同时,相比于文字、音频等信息,视频信息的数据量要 大很多。为了使视频信息得到更好的应用,研究高效的视频编码压缩技术显得至 关重要。 目前,相关国际标准化组织已经制定了一系列视频编码标准,如 h.26x 系列 和 mpeg 系列标准等。其中,作为最新的视频编码标准,h.264/avc 由国际电 信联盟(international telecommunication union, itu)远程标准化组(itu-t)的 视频专家组 (video coding experts group, vceg) 和国际标准化组织 (international standardization organization, iso)联合制定。 随着多媒体技术的发展,流媒体业务的内容、应用和终端都逐渐的多样化。 而随着计算机图形学和计算机视觉等学科的发展,多视角视频技术,如三维视频 (three dimension video,3d video) (smolic et al,2005)和自由视角视频(free viewpoint video,fvv) (vetro et al,2004)等,已经成为新的研究热点。目前, 针对这类应用而制定的多视角视频编码 (multiview video coding, mvc)(chen y et al,2009)已被相关国际标准化组织接收为 h.264/avc 的扩展标准,针对三维 视频的编码标准也正在研究讨论之中。此外,为了适应网络环境的异构性和用户 终端的多样性等应用环境, 相关国际标准化组织已经将可伸缩视频编码 (scalable video coding, svc) (schwarz h et al, 2007)接收为 h.264/avc 的扩展标准。 为了进一步提高三维视频的压缩性能,非对称立体视频编码(perkins m g, 1992)以其接近于传统立体视频的主观特性和高压缩率引起了业界的广泛关注。 区别于普通的立体视频, 非对称立体视频的两个视角具有不同的分辨率或者不同 的质量。同时,其主观感受接近于高分辨率或高质量视角的主观感受(tam w j, 2007; aflaki p et al, 2010; saygili g et al, 2010) 。 由于网络带宽和存储能力等方面的限制, 在三维视频应用中只能传输有限数 量的视角视频。为了使三维视频得到更好的应用,利用已有视角视频合成出所需 的虚拟视角视频很有必要。作为三维视频的重要组成部分,深度视频就是为满足 虚拟视角合成需要而进行编码传输的。因此,深度视频压缩和虚拟视角合成技术 第 4 章 深度视频编码技术研究 8 成为了新的研究热点(tian dong et al, 2009) 。目前,深度视频的压缩主要通过 h.264/avc 及其扩展标准 mvc 实现编码。而现有的这些视频编码技术都是基于 纹理视频的特点而设计,并没有充分考虑到深度视频的特点,导致采用现有编码 方法压缩深度视频时产生压缩性能不高、解码图像质量不好等问题。 1.2 问题的提出及研究意义 随着阿凡达等立体电影的热播,三维立体视频已经广泛的进入了应用市 场并广受欢迎。区别于普通的二维视频,三维视频经常包括多个视角。因此,其 数据量也要数倍于普通二维视频。 这对三维视频的压缩编码和传输都带来了巨大 的挑战。 立体视频是目前广泛应用的三维视频形式之一,包含两个视角的纹理视频。 人的左右眼分别接收到不同视角的视频,从而产生了立体感受。由于目前的网络 只能满足传输普通二维的需要,对立体视频的在线传输仍然无法胜任,因此,研 究更为高效的立体视频编码传输方案至关重要。 在现实环境中,由于网络的异构性和用户终端的多样性等因素,研究可伸缩 编码具有重要的理论和应用价值。就网络环境而言,无线和有线网络并存,有线 网络带宽也各不相同;就用户终端而言,已经由传统的 dvd、个人电脑和高性 能机等终端占主导发展到了传统客户端与平板电脑、 智能手机等客户端并存的局 面,这些多样化的客户端在存储和计算能力上有着巨大的差异。为了适应复杂的 网络环境和多样化的用户终端,在视频编码中引入可伸缩性非常必要。对立体视 频而言,目前最高效的压缩方案是多视角视频编码方案,在利用视角内相关性的 基础上,联合多个视角间的相关性,进行编码压缩。但是,这一编码方案并不具 有可伸缩性,无法适应复杂的网络环境和多样的用户终端。 因此, 研究如何在立体视频编码中引入可伸缩性具有重要的理论价值和应用 价值。另外,根据非对称立体视频的主观特性,当立体视频两个视角具有不同的 分辨率或者不同质量时, 立体视频总体的主观感受接近或等同于两个视角中高分 辨率或高质量视角的主观质量。 非对称立体视频的这一特性也保证了可伸缩立体 视频编码的有效性, 即经可伸缩立体视频编码的码流解码后的非对称立体视频仍 然有着与普通立体视频相当的主观视觉质量。 针对非对称立体视频的主观特性以及可伸缩性在视频编码传输中的重要性, 本文提出了一种具有空间可伸缩性的立体视频编码算法。 该算法充分利用了多视 角视频编码理论中的视角间预测技术和可伸缩视频编码理论中的分层编码理论, 最大限度的消除了编码冗余, 提出了一种非基本视角分辨率可变的空间可伸缩非 第 4 章 深度视频编码技术研究 9 对称立体视频编码方案。 三维视频的另外一种重要形式是多视角纹理加深度视频。在此类应用中,深 度视频是为了满足虚拟视角合成的需要而编码传输。 深度视频的码率在三维视频 总码率中占用相当的比重。因此,高效的深度视频压缩技术对三维视频传输和后 续的虚拟视角合成至关重要。目前的视频编码技术都是基于纹理视频特点设计, 并没有充分考虑深度视频的特点,导致用已有算法压缩深度视频时压缩性能不 高。因此,研究深度视频压缩技术,提高深度视频压缩性能具有重要的理论和应 用价值。 本文在分析现有 h.264 编码算法对深度视频进行压缩过程中存在的不足之 后,提出了一种更适合于深度视频压缩的模式选择改进算法。该算法与现有标准 兼容并能更好应用于深度视频编码压缩。另外,本文针对深度视频纹理简单、内 容渐变、只有亮度分量等特点,提出了一种空间自适应深度视频量化编码算法。 该算法对深度视频的不同区域利用不同精细度的量化编码, 以求尽可能将编码比 特用于深度视频重要的纹理细节部分。 1.3 本文内容安排 本文的内容安排如下: 第二章将介绍视频编码基础,主要包括编码基础理论及发展,h.264 编码标 准的主要技术, 多视角视频编码及可伸缩视频编码两大扩展标准及其与本文选题 相关的技术与应用。 第三章主要介绍本文提出的空间可伸缩非对称立体视频编码, 主要包括算法 介绍,实验结果与分析等。 第四章主要介绍本文提出的深度视频压缩技术及其对视角合成的影响。 主要 包括深度视频压缩的模式选择研究和空间自适应深度视频量化编码的算法介绍 和实验结果与分析。 第五章对本文工作进行总结并做进一步展望。 第 4 章 深度视频编码技术研究 10 第 2 章 基础知识介绍 本章首先对视频编码的基本原理与技术以及视频编码标准的发展历程及各 阶段代表性的编码标准和技术等进行简单介绍, 之后将对目前主流的 h.264/avc 视频编码标准的主要技术进行较为详细的介绍, 接着将介绍与本文密切相关的多 视角视频编码、可伸缩视频编码等相关的基础知识。 2.1 视频编码及国际标准简介 2.1.1 视频编码基本原理 作为多媒体信息中至关重要的一种媒体形式, 视频信息以其直观性、 确切性、 高效性和广泛性等特点而广受欢迎。 直观性:视频信息是由人的视觉系统获取的信息,具有直观性的特点。相比 于音频等信息,视频信息给人的印象更为深刻。而且从客观的交流效果来讲,视 频信息也要比其他信息更高效。 确切性: 视频信息由于其内容直白、 确切, 不会与其他内容信息重复或混淆。 相较而言, 语音信息会因为语种、 方言、 口音等因素产生歧义, 导致理解的偏差。 高效性:由于视频信息由人的视觉系统获取,并可以通过视觉系统并行的进 行观察一副图像中的各个部分。因此,获取视频信息的效率比其他形式的信息如 语音等要高效得多。比如,只通过语言或者文字对某一事物进行描述,往往费力 且效果不佳。但如果有对应该事物的视频图像,则会事半功倍。 广泛性:视频信息在人们日常所获取的信息中占有主导地位,据统计显示, 视频信息的获取量要占到人们日常总信息获取量的 70%左右。 同时,视频信息还具有高带宽性。视频信息所包含的信息量巨大,其内容也 千变万化。 从色彩来讲, 既有彩色的也有灰度的; 从纹理来讲, 有时候平坦光滑, 有时候细节多,变化多;从视频内物体来讲,既有运动的,也有静止的。因此, 视频信息的数据量巨大,所需的传输带宽也比较宽。例如,一路不经压缩的可视 电话会议或会议电视信号需要 mbps(million bits per second)量级的传输带宽, 而一路不经压缩的高清电视信号则需要 gbps 量级的传输带宽。因此,视频压缩 编码技术显得非常重要。 尽管视频信息的数据量巨大, 但其本身的数据冗余度高的特点又给压缩编码 带来了可能和基础。目前,主要的视频编码技术可以分为预测编码和变换编码两 大类。 预测编码主要利用了视频信息的帧内像素间相关性和帧间相关性。 通过观察 第 4 章 深度视频编码技术研究 11 发现,视频图像同一帧内的像素间具有较强的相关性,但像素距离较小时,这种 相关性更强。基于这一相关性,人们提出了帧内预测技术,即利用周围已编码像 素为参考,来预测当前像素。如图 2.1 所示,a,b,c 为已编码参考像素,x 为 当前需要编码像素。由于帧内像素间相关性,a 与 x 相差很小,因此在 a 已编码 传输的情况下,不需要直接传输 x 的像素值,而只需要传输其差 x-a 即可。在解 码端,根据已有的 a 值,以及传输的 x-a 值,相加得到 x 的值。另外,视频各个 时间上的相邻帧之间也有着很高的相关性。利用帧间相关性,人们提出了帧间预 测编码技术。如图 2.2 所示为 foreman 序列的前两帧,由图可见视频序列在时间 上有着很强的相关性,采用帧间预测压缩效率更高。 a b cx . . . . . . . . . . . . 图图 2.1 帧内像素间相关性示例 no. 1 no. 2 图图 2.2 帧间相关性示例(foreman 序列前两帧) 因此,利用视频信号帧内像素间的相关性及帧间相关性,只要确定对应的参 考像素或者参考帧,就可以利用预测技术进行压缩编码。 第 4 章 深度视频编码技术研究 12 变换编码是另外一种重要的视频压缩编码技术。据统计数据表明,视频图像 的细节部分,即视频信号的高频成分只占视频能量中的少量部分,而大量平坦部 分,即视频信号的直流和低频部分则占据视频能量的绝大部分。基于这些特点, 可以对视频图像进行数学变换后, 在变换域内得到更为简单易处理的变换图像进 行压缩处理。图 2.3 所示为经过变换处理后的图像,其中 u,v 分别为空间频率 坐标, “o”表示占大部分的直流和低频部分, “x”表示占少部分的高频部分。 因此,对变换域图像,我们可以用较少的码率表示直流低频和高频部分,而“o” 则不需编码,从而实现了编码压缩。 u v 图图 2.3 经变换处理后的图像 视频编码系统的基本结构(毕厚杰,2005)如图 2.4 所示: 图图 2.4 视频编码系统的基本结构 从上图可以看出,信源模型也会一定程度上决定视频编码的方法。如果将一 幅图像细分为多个像素,则每个像素的亮度和色度分量便是信源模型的处理参 第 4 章 深度视频编码技术研究 13 数,对此类信源模型参数进行压缩编码称为基于波形的编码。而如果将一幅图像 细分为多个不同的物体,则每个物体的形状、运动和纹理等会成为信源模型的处 理参数,对此类信源模型参数进行压缩编码称为基于内容的编码。因此,可以根 据信源模型的不同,将视频编码分为基于波形的编码和基于内容的编码。 基于波形的编码:在基于波形的编码中,之前所述的预测编码技术和变换编 码技术被联合利用并形成基于块的混合编码技术。在这种编码方案中,为了降低 复杂度,一幅图像被分割为固定大小的块,比如 1616 块(每块 16 行,每行 16 个像素) ,88 块(每块 8 行,每行 8 个像素),44 块(每块 4 行,每行 4 个像素)等,然后对单个块进行压缩编码。 采用基于块的混合编码,即基于波形编码的视频标准主要有 itu-t 制定的 h.261、h.263 和 h.264/avc 等视频编码标准,h.320、h.323 等多媒体终端标准 以及 iso 下属的 mpeg 制定的 mpeg-1,mpeg-2,mpeg-4 等娱乐和数字电视 编码标准。 基于内容的编码:由于视频内容的形状是不规则的,因此固定的将视频图像 划分为单个块进行编码会带来一些问题, 比如处于纹理边界的块会产生高的预测 误差和失真,进而严重影响了视频编码的性能。因此,基于内容的编码先将一幅 图像分为对应不同物体的区域,然后对各个区域进行编码。编码的参数主要是各 个物体的形状、运动和纹理等信息。当物体类别已知时,也可以利用基于模型或 者知识进行编码。比如,对人脸的编码目前已有高效的编码模型。此外,语义编 码也可以用在人脸表情等行为的编码。 目前,基于内容的编码被应用于 iso 下属 mpeg 制定的 mpeg-4 编码标准 之中。 2.1.2 第一代视频编码标准 第一代视频编码标准主要包括由 itu-t 制定的 h.261 标准(itu-t,1993) , 以及 mpeg 组织制定的 mpeg-1 标准(iso/iec jtc 1,1993)和 mpeg-2 标准 (itu-t et al, 1994) 。h.261 主要是为了在综合业务网(integrated services digital network,isdn)上实现可视电话、视频会议等而制定的标准,而 mpeg-1 主要 是面向 vcd 应用而制定的标准,数据速率约为 1.5mbps。 将上述标准总结为第一代编码标准主要因为其制定年代相近并在主要编码 技术方面也比较类似。 第一代视频编码标准采用的预测编码技术包括帧内预测和 帧间预测两种主要的预测技术。帧内预测利用像素周围已编码像素进行预测,帧 间预测则利用已重建相邻帧进行预测。从编码帧类型来看,主要有 i 帧,p 帧和 b 帧。其中 i 帧采用帧内预测技术,p 帧和 b 帧容许采用帧间预测技术。帧间预 第 4 章 深度视频编码技术研究 14 测是基于 1616 块进行运动估计,得到的运动矢量的精度为半像素精度。 h.261:h.261 视频编码标准的提出主要是为了解决当时不同国家采用的不 同彩电制式之间的互通兼容问题。为了在各种制式间达到直接互通,h.261 提出 了一种公共的中间格式 cif(common intermediate format) 。这样,不同制式必 须先转换成共同格式 cif,经过 h.261 压缩编码后再从 cif 转换为各国自己的彩 电制式。除 cif 外,四分之一通用中间格式 qcif(quarter common intermediate format)也是 h.261 支持的中间格式之一。因此,h.261 编解码器的输入输出视 频格式均为 cif 或者 qcif 格式。 在编码技术细节上,h.261 采用帧内预测和帧间预测两种预测技术。在得到 预测残差后,利用 88 离散余弦变换(discrete cosine transform,dct)进行 编码。帧内预测残差变换结果的直流(dc)系数进行非线性量化,交流(ac) 系数进行线性量化; 帧间预测残差变换结果则进行加权量化。 在完成上述流程后, 利用 zig-zag 扫描,将二维数据转换为一维数据再进行游程编码。对出现最多的 (run,level)组合,熵编码采用可变长编码,其余则采用 20 比特等长码。 h.261 作为第一个被广泛认可并采用的数字视频编码标准,其设计思想和编 码技术对后续的视频编码标准产生了广泛而深刻的影响。 在之后几代的视频编码 标准中,h.261 的编码框架被继承并不断发展。在具体的编码技术中,我们也总 能或多或少看到 h.261 中曾经出现的技术或者其扩展。 mpeg-1:mpeg-1 的编码结构类似上述提到的 h.261,都采取了混合编码 结构。不过,在 mpeg-1 编码中,提出了片层(切片,slice)的概念。由于在预 测参考时只容许参考同一 slice 内的块,因此这一技术可以有效防止误码扩散。 另外,mpeg-1 提出了三种编码帧类型,即之前所述的 i 帧、p 帧和 b 帧,这一 概念也被后续的编码标准所继承。 mpeg-1 的传输速率可以达到 1.5mbps30fps(frame per second) ,主要面 向 cd 光碟而制定的音视频编码标准。此外,mpeg-1 也被用于视频信号在数字 电话网络上的压缩传输。 mpeg-2:1994 年,itu-t 和 mpeg 联合制定了 mpeg-2,这一标准主要是 为了达到高级工业标准的视频图像质量和更高的传输速率。 为了降低设备成本并 最大限度兼容按之前标准开发的设备,mpeg-2 兼容 mpeg-1。由于 mpeg-2 的 出色性能,它也被用作标清电视(sdtv)和高清电视(hdtv)的编码。 在继承之前编码标准的优点的基础上, mpeg-2 也创造性的提出了很多新的 编码思想和技术。mpeg-2 可以逐行扫描图像也可以隔行扫描图像,因此就有了 基于帧的 dct 变换和基于场的 dct 变换。 档次和级别的概念也在 mpeg-2 中首 次提出。mpeg-2 按照不同的压缩比分为简单、主要、snr(信噪比)可分级、 第 4 章 深度视频编码技术研究 15 空间可分级和高级五档;按照不同分辨率分为低级、主级、高-1440 和高级四个 级别。其中 snr 可分级和空间可分级等分层编码技术虽然并不成熟,但为后续 的可伸缩编码提供了雏形和启发。 2.1.3 第二代视频编码标准 第二代视频编码标准以h.263及其改进版本h.263+, h.263+ (itu-t, 2000) , 和 mpeg-4 (itu-t et al,2007)为主要代表。这些编码标准在预测技术(帧内 和帧间预测)以及熵编码技术方面都有提高和改进。帧内预测技术被用于频域, 将图像经过余弦变换到频域, 利用已编码块的变换系数值对待编码块的系数进行 差分预测。原有标准的帧间预测也被继承并发展,除 1616 宏块外,88 块也 被支持。 运动矢量的精度也得到进一步提升, 达到半像素甚至四分之一像素精度。 在熵编码方面, 也从原有熵编码的二维编码 (run, level) 发展成为三维编码 (run, level,last) 。 h.263:h.263 支持五种数据格式,除第一代标准支持的 cif 和 qcif 外,还 支持 sub-qcif、4cif、16cif 格式。h.263 编码框架也与 h.261 相同,信源编码 算法也非常相似。相较于 h.261,h.263 预测精度更高,从整像素精度提高到半 像素精度。h.263 采用二维预测,而 h.261 则采用一维预测。此外,h.263 还增 加了 88 预测模块。在 h.263 发布之后,为了进一步提高压缩效率、适应低码 率情况下的传输, itu-t分别于1998年和2000年发布了h.263的改进版本h.263+ 和 h.263+。 这些改进标准主要为了更好适应在易误码、 易丢包等网络下的传输, 并增强了错误恢复能力。 mpeg-4:mpeg-4 和 h.263 采用了类似的编码框架,在具体编码技术方面 也有很多相类似的地方。与 h.263 比较注重编码性能不同,mpeg-4 更注重用户 与系统的交互性以及系统本身的灵活性。 mpeg-4 编码标准也第一次使用户可以 在接收端对画面进行交互访问和操作。另外,mpeg-4 是一个多媒体编码标准, 既包括视频压缩标准,也包括音频压缩应用部分,由系统、音频和视频三部分构 成。 mpeg-4 的一大特点是基于对象,也就是基于内容的编码,而之前提到的标 准则大部分采用基于波形的编码方法。为了实现基于内容的编码压缩,mpeg-4 以视频对象平面(video object plane,vop)为对象进行压缩处理,vop 是 vo (video object)在某一时刻的表示。vo 主要定义在编码图像中分割出来的各个 物体,并由形状、运动、纹理三类信息描述。mpeg-4 第一次将形状编码引入到 视频编码标准之中,并采用位图法表示二值形状信息和灰度级形状信息。为进行 运动估计和运动补偿,mpeg-4 提出了类似之前 i、p 和 b 帧的 i-vop、p-vop, 第 4 章 深度视频编码技术研究 16 b-vop。mpeg-4 的纹理编码是基于块进行的,每个 vop 边框被分为 1616 宏 块。mpeg-4 的另外一大特点是其可扩展性,可以进行空间域和时间域两个层面 的扩展。 2.1.4 第三代视频编码标准 目前采用的视频编码标准以第三代视频编码标准为主,包括 h.264/avc (itu-t et al,2007)和我国拥有自主知识产权的 avs(audio video coding standard) (fan liang et al, 2004) 。 其中, h.264/avc 在 iso 中也被称为 mpeg-4 的第十部分(part 10:advanced video coding,先进视频编码) ,其编码原理及 技术细节将在下一节详细介绍。 avs 是我国拥有自主知识产权的第二代信源编码标准,包括系统、视频,音 频、数字版权管理四个技术标准和一致性测试等支撑标准。2004 年,全国信息 技术标准化技术委员会组织评审并通过了 avs 标准视频草案。2005 年(第 12 次全体会议)第三部分音频草案也制定完成。avs 有着出色的编码性能,编码效 率与 h.264 相当。在编码复杂度方面,avs 要低于 h.264,因此其软硬件实现成 本更低。 avs 也采用混合编码方案, 在编码框架和编码技术方面和下一节将要介 绍的 h.264/avc 有诸多相似之处。 2.2 h.264/avc 编码标准介绍 h.264/avc 是目前主流的视频编码标准, 在继承之前视频编码国际标准的优 点的基础上,根据新时期视频应用要求的变化及软硬件技术水平的不断提升,在 诸多编码技术上进行了创新和改进, 从而达到了更高的编码效率。 在压缩性能上, h.264 是 mpeg-2 的两倍以上, 是 mpeg-4 的 1.4 倍以上。 除了优异的压缩性能, h.264/avc 也具有良好的网络亲和力,非常适合 ip 网络传输。视频通信和网络 流媒体都是 h.264/avc 的重要应用。 h.264/avc 的设计目标是更高效率的压缩性能和更可靠的传输性能, 这与重 点追求可扩展性的 mpeg-4 不同。h.264/avc 支持三个不同的档次:基本档次, 用于会议电视、视频电话等视频会话应用;扩展档次,用于视频点播等网络视频 流应用;主要档次,用于数字广播电视,数字存储等消费电子应用。 h.264/avc 在设计之初就要求具有优异的压缩性能和良好的网络亲和性。 因 此,h.264/avc 提出了双层编码系统结构:网络抽象层(network abstract layer, nal)和视频编码层(video coding layer,vcl)来适应不同的网络形式和网 络协议间的无缝连接。如图 2.5 所示为 h.264 的双层编码系统结构(wiegand 第 4 章 深度视频编码技术研究 17 thomas et al,2003) 。图中,rtp 为实时传输协议的简称,h.230 是音视系统中 帧同步控制和指示信号标准的简称。 vcl encodervcl decoder nal encodernal decoder jvt for h.320 jvt for mpeg-2 systems iso media file format encapsulati on for jvt rtp payload specificati on for jvt transport layer 图图 2.5 h.264 提出的双层编码系统结构 2.2.1 网络抽象层 为了更好的在各种网络中进行传输,h.264/avc 在设计时提出了双层编码, 利用网络抽象层(nal)来实现网络接口的亲和力。通过该层的封装后,视频数 据变成一个个组织结构相同的数据包, 被称为 nal 单元 (nal units) 。 每个 nal 单元都有头信息和数据载荷组成, 头一个字节的头信息指明后续数据载荷的数据 类型。nal 单元有两个不同的类型,分别是 vcl nal units 和 non-vcl units。 前者传输的是经过编码的视频图像像素信息, 而后者主要传输参数集等额外的编 码信息。 2.2.2 视频编码层 h.264/avc 的视频编码层(vcl)设计也采用了基于块的混合编码方法,其 编码框架图如下图 2.6 所示(wiegand thomas et al,2003) : 第 4 章 深度视频编码技术研究 18 图图 2.6 h.264/avc 编码框架图 h.264/avc 支持三种帧类型,i 帧、p 帧和 b 帧。对 i 帧,采用帧内预测编 码,得到预测参考图像。对 p 帧和 b 帧,采用运动估计和运动补偿,得到运动 矢量后经补偿得到参考图像。在得到参考图像之后,和原图做差得到残差图像。 残差图像经过变换和量化模块, 得到量化系数。 量化系数再经过熵编码写入码流。 在解码端 ,经过相反的过程,可以得到对应的解码图像。下面将对 h.264/avc 的关键技术进行进一步介绍。 帧内预测是利用视频图像的空间相关性来实现的, 利用周围已编码像素来预 测当前编码像素, 实现编码压缩。 h.264/avc 支持三种模式的帧内亮度预测模式, 分别是 1616 宏块模式、44 子块模式和 88 子块模式。1616 帧内模式适 用于视频图像内平坦区域部分的压缩编码,88 模式和 44 帧内模式则适用于 视频图像内细节纹理多的部分。 1616 帧内模式以 1616 宏块为预测单元,有 4 中预测模式。如下图 2.7 所示,从左至右为模式 0、1、2 和 3。模式 0 为垂直预测,由已编码上方像素预 测当前宏块的对应像素;模式 1 为水平预测,由已编码左侧像素预测当前宏块的 对应像素;模式 2 为均值预测,由已编码的上方像素和左侧像素的均值来预测当 前宏块的对应像素;模式 3 为平面预测,利用线形“plane”函数及已编码上、 左侧像素来预测当前宏块的对应像素。 第 4 章 深度视频编码技术研究 19 . . . . . . . . . . h v 0 (vertical) . . . . . h v 1 (horizontal) mean(h+v) h v 2 (dc) h v 3 (plane) 图图 2.7 1616 帧内模式的 4 种预测模式 88 帧内预测模式和 44 帧内预测模式将 1616 宏块细分为更精细的 8 8、44 块来处理,根据不同的预测方向和方法分为 9 种预测模式。下图 2.8 所示为 44 帧内预测的 9 种预测模式,88 帧内预测的预测模式与此类似。模 式 0 为垂直预测,由已编码上侧像素预测当前宏块的对应像素;模式 1 为水平预 测,由已编码的左侧像素预测当前宏块的对应像素;模式 2 为均值预测,由已编 码的上方像素和左侧像素的均值来预测当前宏块的对应像素; 模式 3 为下左对角 线预测,由下左 45方向的已编码上侧像素内插预测当前宏块的对应像素;模 式 4 为下右对角线预测,由下右 45方向的已编码上、左侧像素内插预测当前 宏块的对应像素;模式 5 为右垂直预测,由 26.6方向的已编码上、左侧像素内 插预测当前宏块的对应像素;模式 6 为下水平预测,由 26.6方向的已编码上、 左侧像素内插预测当前宏块的对应像素;模式 7 为左垂直预测,由 26.6方向的 已编码上侧像素内插预测当前宏块的对应像素;模式 8 为上水平预测,由 26.6 方向的已编码左侧像素内插预测当前宏块的对应像素。 abcd 0 (vertical) efghm k j i l abcd 1 (horizontal) efghm k j i l abcd 2 (dc) efghm k j i l mean a.d i.l abcd 3 (diagonal down-left) efghm k j i l abcd 4 (diagonal down-right) efghm k j i l abcd 5 (vertical-right) efghm k j i l 第 4 章 深度视频编码技术研究 20 abcd 6 (horizontal-down) efghm k j i l abcd 7 (vertical-left) efghm k j i l abcd 8 (horizontal-up) efghm k j i l 图图 2.8 intra44 帧内预测模式 上述几种预测模式为帧内亮度预测模式, 对应于1616的亮度宏块, 以4:2:0 采样的 yuv 视频数据为例,其色度分量的宏块为 88 块(亮度分辨率为色度 分辨率四倍) ,其帧内色度分量预测模式与上述 1616 亮度帧内预测模式类似。 88 色度成分有类似帧内 1616 模式的 4 种预测模式,只是模式顺序不同,模 式 0 为均值预测,模式 1 为水平预测,模式 2 为垂直预测,模式 3 为平面预测。 相较于视频图像的空间相关性,视频图像在时间上的相关性更强,存在大量 的帧间冗余。因此,帧间预测往往可以得到比帧内预测更高的压缩性能。相较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论