基于H.264标准的双目立体视频压缩编码与实现

上传人：7*** IP属地：湖北上传时间：2022-01-24 格式：DOC 页数：8 大小：28.50KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、作者：王世刚，王学军，陈贺新【摘要】本文提出了基于H.264标准的立体视频编码器方案，主要由预测（包括运动补偿预测和视差补偿预测）、变换和熵编码器三个部分组成。以左通道为主序列，右通道为辅序列。左通道采用简单的H.264编码，右通道以块为单位，进行运动补偿和视差补偿。通过实验证明了混合编码框架（运动补偿预测和视差补偿预测）具有更好的压缩效果，通过对不同图像复杂度的序列仿真实验，得到

2、良好的重建图像质量，证明了本算法的有效性。【关键词】立体视频编码； H.264；视差补偿；运动补偿 Abstract: This paper presents a kind of stereoscopic video coding scheme based on H.264, which contains components of prediction (motion and disparity prediction), transform and entropy coding. The left channel is main view, and

3、 the right channel is auxiliary view. The left channel of the sequences is encoded as a H.264 bit-stream. The right channel is encoded by joint motion and disparity compensation based on block. The experimental results showed that the joint motion and disparity compensation is most effective in comp

4、ression performance. Do experiments on arrays whose image complicated degree are different. A finely reconstructed image quality can be achieved by this coding scheme. It proved that the stereoscopic video coding algorithm is effective. Key words: Stereoscopic video coding； H

5、.264； Disparity compensation； Motion compensation 立体视频是利用人眼睛的双目视差原理，双目各自独立地接收来自同一场景的特定摄像点的左右图像，左眼看偏左的图像，右眼看偏右的图像，形成双目视差，大脑能得到图像的深度信息，使欣赏到的图像有强烈深度感、逼真感，观众能欣赏到超强的立体视觉效果。 H.264作为MPEG-4标准的第10部分它不仅含有一个规定视频编码算法的视频编码层，还包括一个规定网络传输规范的网络提取层。H.264编码效率的提高不只是其中某一项新的编码技术所产生的决定性的结果，而是多种新技术所

6、产生的细微的效果积累所致。与先前的标准相比较，H.264有更高的压缩比，更好的信道适应性，应用前景更为广泛。这些都为立体视频编码提供了良好的平台，也促进着立体视频编码研究的进一步发展。立体视频一般有两个视频通道，数据量要远远大于单通道视频，所以对立体视频的高效压缩尤为重要。由于使用立体图像提取深度信息在计算机视觉领域中是一个常用的技术，Michael E.Lukaces是立体视频编码的早期研究者，他的论文探索了将视差补偿 (DC-based) (指使用双目视视差关系在两幅图像之间建立对应)用于从立体视频序列中的一个视频序列预测另一个视频序列，并提出了多种基于视差补偿的

7、方法1。Perkins将基于视差补偿的方法归纳为一种条件编码方法，对于无损编码来说是最优的，对于有损编码则是次优的2。Tzovaras等人提出了视差估计的分层块匹配以及运动视差双向补偿方法，称之为聚合估计3。另外Franich还提出了基于通用块匹配算法的视差估计方法4，并引入一种平滑检测手段来评价视差匹配好坏。在先进的基于物体编码方法的研究中，Ziegler和Panis描述了立体视频编码的一种基于物体方向性的编码器5。但是这种方法仅在没有摄像机运动以及场景中没有太多对象时有用。在立体和多视点编码中已经提出许多基于块的方法。Puri等人给出了与MPEG-2兼容性编码的结果6。也给出了针对该编码器

8、的一种基于视觉的自适应量化方法。Siram Sethuramn以及M.Siegel 等人提出了基于视差和运动的可变块四叉树多分辨率分割方法，针对基于MPEG视频编码标准的立体视频流的编码，按在解码端是否有合成中间视图的需要，提出了两个立体视频流的混合分辨率编码方法7。PD Gunatilake提出了一种利用人体生理视觉特性的立体流压缩方法8，只对主帧组(main group)进行高分辨率的编码，次帧组(subgroup)只传送视差信息和运动信息，不传送残差信息。Fujii等人提出了基于多视点编码以及场景内插的视差估计方法9。由此可见，前人大量的工作都是在解决如下问题: 静止立体对编码，混合分辨

9、率立体编码，运动及视差联合估计，物体方向性立体编码，与标准可兼容的编码，基于心理特性的比特分配，基于多分辨率的立体编码，多视编码及中间视图合成等。在本质上都是利用双目视频流之间的相关性以整体地提高两路视频信号的编码效率。为了进一步利用H.264标准的高压缩性能，本文提出了基于H.264标准的双目立体视频的压缩编码方法。旨在更有效地去除双目立体视频间相关性以及各个通道中连续帧之间的相关性，从而实现高信噪比条件下的高倍压缩。 H.264 是一种高效的单通道视频编码标准，但对于立体视频编码来说，并不是对左右通道分别采用高效的

10、单通道视频编码，就可以达到很好的压缩效果。因为立体视频编码除了要考虑每个通道帧内图像的空间冗余度和帧间图像之间的时间冗余度外，还要考虑左右通道图像之间的空间冗余度。对于后者，可以利用视差估计补偿的方法来去除其冗余度。 1.1 立体视频编码方案立体视频摄取系统常用的摄取方法是从两个视角对同一景物进行拍摄，该文所针对的是其中常用的双目平行相机系统；该系统摄得的视频包括左右两个通道。两个通道的图像对之间存在很强的双目相关性。H.264 是一种高效的单通道视频编码标准，但对于立体视频编码来说，并不是对左右通道分别采用高效的单通道视频编码，就

11、可以达到很好的压缩效果。因为立体视频编码除了要考虑每个通道帧内图像的空间冗余度和帧间图像之间的时间冗余度外，还要考虑左右通道图像之间的空间冗余度。对于后者，可以利用视差估计补偿的方法来去除其冗余度。典型的块基立体视频编码有以下三种方案。如图1、图2、图3所示为三种典型的基于 H.264 标准的立体视频编码方案。如图1中所示，左右通道进行独立的运动补偿预测(MCP)编码，分别进行H.264 编码，该方案只利用了左右通道内的相关性，没有利用左右通道之间的相关性，编码效率低。如图2中所示，考虑左右通道相关性和右通道视差预测的残差，左通道采用H.264 编码，右通道采用基于左

12、通道的视差补偿预测(DCP)编码，右通道视差预测的残差也采用 H.264 方式进行编码。这种编码方案仍缺乏效率，因为它没有充分利用右通道前后帧之间的时间上的相关性。如图3中所示，左通道仍采用普通的 H.264 编码，右通道的每个像素块进行两种方式的预测：一种是基于右通道先前帧图像的MCP方式，另一种是基于左通道图像对应帧的DCP方式，然后从中选择预测误差较小的一种。MCP不能预测运动引起的“暴露”区域（暴露是在前一帧中不能被看见的运动部分，在下一帧中暴露出来），DCP不能预测“遮挡”区域（如图所示）。将MCP和DCP相结合后，就可弥补两者的不足，从而减小预测误差。可见

13、，三种方案之中，图3方案(即MCP和DCP相结合的编码方案)的预测性能最佳，可以处理好左右序列间DCP和前后帧间MCP的关系。 1.2 图像编码类型 (1) 当前图像采用帧内预测编码(intra predict)进行压缩，不进行运动/视差补偿和运动/视差搜索，为I&I帧。 (2) 当前图像采用时间方向的帧间编码(inter predict)，不进行视差补偿和视差搜索。当参考帧是当前图像之前一帧或多帧图像，为P&I帧。当参考帧是当前图像之前一帧或多帧及之后的一帧或多帧图像，为B&I帧。&#

14、160; (3) 当前图像采用帧内预测编码(intra predict)和空间方向的帧间编码(inter predict)进行压缩，可以进行视差补偿和视差搜索，但不进行运动补偿和运动搜索，为I&P帧。 (4) 当前图像采用时间方向和空间方向的帧间编码(inter predict)，可进行视差补偿和视差搜索。当参考帧是当前图像之前帧或多帧图像，为P&P帧，当参考帧是当前图像之前一帧或多帧及之后的一帧或多帧图像，为B&P帧。 1.3 宏块编码类型编码器首先将一幅完整图像分为多个

15、宏(MB)，然后对这些小块分别进行预测、量化、编码等处理。这样做的目的是为了加快处理速度，提高编码效率。因此，对图像的压缩实际上是在宏块级(MB)进行的。 1.3.1 立体帧内预测编码有4类 (1) 以4×4块(block)为单位9种帧内预测模式。 (2) 以宏块(16×16)为单位4种帧内预测模式。 (3) 空间方向的忽略(skip)，表示本宏块与空间方向的参考帧相应宏块完全相同，没有附加信息需要传送，在解码端只需要将空间方向的参考帧解码后的图像中相应宏块拷贝一份进

16、行图像重建即可。 (4) 本宏块采用空间方向的帧间预测的方法，而且进行视差搜索的预测块的大小为N×M，根据N和M的不同，一共有7种搜索模式，每种模式所需要传的视差矢量的个数也由1个到16个不等。 1.3.2 立体帧间预测编码有5类 (1) 时间方向的忽略(skip)，表示本宏块与时间方向的参考帧相应宏块完全相同，没有附加信息需要传送，在解码端只需要将时间方向的参考帧解码后的图像中相应宏块拷贝一份进行图像重建即可。 (2) 本宏块采用时间方向的帧间预测的方法，而且进行运动搜索的预

17、测块的大小为N×M，根据N×M的不同，一共有7种搜索模式，每种模式所需要传的运动矢量的个数也由1个到16个不等。 (3) 空间方向的忽略(skip)，表示本宏块与空间方向的参考帧相应宏块完全相同，没有附加信息需要传送，在解码端只需要将空间方向的参考帧解码后的图像中相应宏块拷贝一份进行图像重建即可。 (4) 本宏块采用空间方向的帧间预测的方法，而且进行视差搜索的预测块的大小为N×M，根据N和M的不同，一共有7种搜索模式，每种模式所需要传的视差矢量的个数也由1个到16个不等。 (5) 帧内预测方式

18、，当帧内预测比帧间预测的压缩效果好时采用这种预测。 1.4 运动补偿预测（MCP）运动补偿预测(motion compensation prediction)是对活动图像进行压缩时所使用的一种帧间编码技术。所谓活动图像实际上是一个静止图像的序列，当它们以每秒钟不小于24帧的速度连续显示的时候，由于人眼的视觉暂留效应，看起来就是连续的图像。因此，在一般情况下，相邻帧间的内容实际相差不大(除了有场景切换等)，有很大一部分甚至是完全一样的，所以相邻帧间有较大的相关性，也就是有很大的)冗余，这种相关性称为时域相关性。运动补偿的目的就是要消除

19、这种时域相关性。运动补偿编码己广泛应用于数字视频压缩中，并已被多种压缩标准采用。其原理是利用帧间的空间相关性，减小空间冗余度。帧间编码可以减小冗余度的原理是因为两帧之间有很大的相似性。如果将前后两帧相减得到的误差作编码，那么所需比特就要比帧内编码所需的比特少。因为帧间差集中在零附近，可以用短的码字传送。运动补偿编码主要包括运动估计和预测误差编码两部分运动估计的方法有很多。其中基于块匹配的运动估计，由于相对简单和有效，应用广泛。其基本思想是将图像序列的每一帧划分成子块，对于当前帧中的每一块到前一帧某一给定搜索区域内所有候选块位置，找出与当前块相似的块，即匹配块，当前块与

20、其匹配块之间的相对位移即为该块的运动向量。传输是只需将运动矢量和估计的误差值送到接收端。接收时根据收到的运动矢量将参考帧作平移，就得到对对当前帧的估计，再加上接收到的误差值，就是当前帧。 1.5 视差补偿预测（DCP）在立体视频图像的编码中，为了达到高效压缩编码的目的，除了要考虑每个通道内前后帧图像之间的时域相关性和帧内图像的空域相关性外，还必须考虑两通道图像之间的空域相关性，前者可以利用运动估计和补偿技术进行压缩编码，去除冗余度，后者

21、利用视差估计与补偿技术。视差估计与补偿是立体视频图像压缩编码中的一项关键技术，它能够消除左右两个通道的立体图像对之间的冗余。视差估计和运动估计相似，两者都是寻找两幅图像之间的相关性，所不同的是，运动估计中两幅图像在时间上是不同步的，是由同一个相机拍摄得到的；而在视差估计中，两幅图像在时间上是同步的，是由两个相机在同一时间不同视场拍摄得到的。然而，视差估计要比运动估计复杂的多。在运动估计中通常只有部分像素点发生移动，而在视差估计中几乎所有的像素的视差都不为零，除非物体表面离成像平面很远，视差才可以看作零。 2 MCP和DCP相结合立体视频编码方案 &

22、#160; 基于H.264标准的立体视频编码器如图4所示，图中ME代表运动估计，DE代表视差估计，MV代表运动矢量，DV代表视差矢量，VLC代表熵编码。根据这个框图可以整理出具体算法步骤存储内存等。 (2) 设置运动补偿搜索窗及视差补偿搜索窗。 (3) 读取文件。 (4) 编码 1) 如果是左通道的第一帧，采用帧内编码。H.264 的分块形式是遍历过所有分块模式后得到开销最小的那种。 2) 如果是右通道的第一帧，采用帧内编码

23、，同时采用以左通道第一帧为参考帧的视差补偿预测，并存储所需的视差矢量和残差。 3) 如果是左通道的非第一帧，那么以前一帧作为参考帧进行运动估计，采用块匹配算法，确定搜索范围，全搜索找到MAE最小的块，作为最佳匹配块，即为预测块。并记下运动矢量MV0。 4) 如果是右通道的非第一帧，那么要进行两种预测。以前一帧为参考帧进行运动估计，同样找到最佳匹配块，记下运动矢量MV1。以左通道相应帧为参考帧做视差补偿预测，找到最佳匹配块，记下视差矢量DV。 (5) 求残差 1) 左通道除第一帧后的每一帧中根据MV0

24、找出预测块，用当前块减去预测块，得残差。 2) 右通道的每一帧，根据DV找到视差补偿预测块，求得残差，记为R1；根据MV1找到运动补偿预测块，求得残差，记为R2。 (6) 确定右通道预测块。如果 R1R2，那么将MV1所指的匹配块作为预测块，最终残差为R1。反之，将DV所指的块作为预测块，最终残差为R2。 (7) 对色差进行预测，根据亮度预测值，得到色差预测值。 (8) 将残差于MV0，MV1，DV进行整数变换，量化，CAVLC编码。 (9) 判断是否编完整个宏块？如果编完，

25、转到下一宏块，再转到下一片，直到编完整个图像。 3 仿真实验该实验针对不同序列的实验条件均相同，评价对象是两通道重建后的图像质量和压缩比，图像质量的评价指标是峰值信噪比的平均值SNR。 3.1 实验序列选取实验序列时从分考虑不同复杂情况的序列，使实验数据具有说服力。实验序列选取 (1) 序列a：IU。图中只有一个人物，背景简单，运动幅度低，图像复杂度低。 (2) 序列b：IUJW。图中有两个人物，背景简单，运动幅度低，但相对

26、IU序列图像复杂度稍高。 (3) 序列c：book-sale。图中人物变为5个，背景复杂，运动幅度较大，图像复杂度偏高。 (4) 序列d：crowd。图中人物众多，背景复杂，运动幅度较大，图像复杂度高。 3.2 实验结果针对上述4种序列中的IU、book-sale原始图像和编码后的重建图像分别在图5、6所示。图5 IU序列原始图像重建图像对比上述四种序列经过压缩编码前后的压缩比和峰值信噪比实验结果如表1和所示。图7为四种序

27、列的右通道亮度PSNR曲线。图8为四种序列左右通道压缩比比较图。图6 book-sale序列原始图像重建图像对比表1 四种序列编码前后压缩比和峰值信噪比由表1，图7，图8可知，本算法对于不同复杂度的序列均能得到图像质量良好的重建图像。由图5可知，在图像质量并没有下降的情况下，本算法中右通道的压缩比要比左通道略高2左右。这是因为本算法结合了视差补偿和运动补偿，求得最小的误差值，充分利用了立体视频两通道间的空间冗余度以及各个通道自身的时间冗余度。由图4可知，图像复杂度越高，同等实验条件下，图像质量PSNR和压缩比就会越小。这是因为，背景越复杂，人物运动越剧烈，图像像素间的相关性就会越小，运动补偿预测和视差补偿预测需要考虑的因素越多，预测效果就会越差。通过实验证明了本算法的有效性。 4 结论综上所述，本论提出的算法对于不同复杂度的序列均能得到图像质量良好的重建图像。并且在图像质量并没有下降的情况下，因为本算法结合了视差补偿和运动补偿，求得最小的误差值，充分利用了立体视频两通道间的空间冗余度以及各个通道自身的时间冗余度，右通道的压缩比要比左通道略高2左右。总之，左通道采用简单的H.264编码，右通道以块为单位，进行运动补偿和视差补偿。通过实验证明了混合编

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于H.264标准的双目立体视频压缩编码与实现

文档简介

温馨提示

最新文档

评论

基于H.264标准的双目立体视频压缩编码与实现

文档简介

温馨提示

最新文档

评论

相关文档