（信号与信息处理专业论文）h264空间分辨率转码研究和实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：49 大小：312.30KB 积分：12 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

硕士学位论文 i 摘要视频转换编码(以下简称“转码”)，是指对压缩后的视频流进行格式转换，使处理后的视频流满足传输信道和用户环境的要求。格式包括编码标准、码率、帧率和空间分辨率。随着用户终端，例如掌上电脑，pda，mp4 以及智能手机等的广泛应用，要求向这些具有不同的运算速度、显示能力以及存储能力的设备提供视频，必须进行格式的转换。显然，分辨码转码则是视频转码的一个重要内容。 h.264 是最新的视频编码国际标准，论文针对 h.264 空间分辨率转码展开研究。本文首先概述了视频转码技术的分类和系统结构，主要包括码率转码、分辨率转码和语法转码，并分析了各种类别转码的特点、关键技术和研究热点。论文的研究工作主要包括以下 3 个方面：第一，研究了实现空间分辨率转码的结构，并总结了转码过程的主要问题、实现方案和关键技术。第二，针对空间分辨率转码的运动矢量重估计，提出了一种混合长方形和六边形模板的运动重估计算法。它利用从 mpeg2 视频流得到的运动矢量的方向导数和梯度信息，预测初始运动矢量，然后结合不同的长方形和六边形网格搜索模板，实现了对运动矢量的快速的重估计。第三，针对空间分辨率转码的模式选择，提出了一种基于局部方向的快速模式选择算法。对于帧內预测宏块，算法主要通过计算宏块模式中预测方向获得预测方向直方图，并选取可能性较高的几种预测模式。对于帧间预测模式，则根据输入运动矢量的梯度方向，选择适合的宏块模式。本文给出了仿真实验的环境和对各种标准序列的实验结果。仿真实验表明，本文的算法在保持编码效率和视频质量的同时，能够有效地降低 h.264 空间分辨率转码程中的运动估计和模式选择算法的复杂度。最后，对全文进行了总结，并对未来本领域值得研究的问题进行了展望。 .关键词：分辨率转码；h.264；运动重估计；模式选择； h.264 分辨率转码研究和实现 ii abstract video transcoding is the operation of converting a compressed video stream to the other stream of different form for adapting to the network and usage environment. the forms include the coding syntax, code rate, frame rate and spatial resolution. with the extensive use of the network appliances including handheld computers, personal digital assistants (pdas), mp4, and smart cellular phones, which varies significantly in resources such as computing power and display capability. to provide video contents to these appliances, video transcoding is necessary. among them, spatial transcoding is one of the most important kinds of transcoding. h.264 is the latest video coding standard, so this thesis focus on the h.264 related spatial transcoding. this paper first introduces the conception and classification of transcoding, which includes the conversion of bit-rate, spatial resolution, frame-rate and the code syntax. the features, key techniques and the search hot-topics of every category are briefly introduced. the main contributions of this thesis are detailed as follows: first, the architectures for spatial transcoding are surveyed, and the existing problems and key techniques for implementation are summarized. second, a motion re-estimation algorithm based on hybrid rectangle and hexagon templates is proposed. it utilizes the motion vectors, which are easily obtained from the input video stream, to derive the directional derivative and gratitude, and then predicts the initial motion vectors. motion re-estimation algorithm selects different search pattern of rectangle and hexagon template to obtain the proper the motion vectors. third, a local direction based fast mode selection algorithm is proposed. for intra model selection, it utilizes the histogram of the local prediction direction and selects that of high probability. for inter mode selection, it is based on the gradient to reduce the number of candidate modes. experimental results demonstrate that it can reduce the complexity of mode decision in downscaling video transcoding while keeping the quality of reconstructed video and coding efficiency. at last, future work worthy of further investigation in this field is prospected. keyword: spatial transcoding; h.264; motion re-estimation; mode selection 硕士学位论文 iii 插图索引插图索引图 1-1 视频转换编码的主要应用场合 .1 图 2-1 码率转码的高频截除 .6 图 2-2 码率转码的重量化 .7 图 2-3 双环级联结构.8 图 2-4 空间分辨率像素域结构.8 图 2-5 帧率转码像素域结构 .9 图 3-1 帧间模式自上而下 .12 图 3-2 帧间模式自下而上 .13 图 3-3 mpeg-2 到 h.264 的分辨率转码采用像素级联结构.21 图 4-1 运动重估计整个的搜索过程 .24 图 4-2 运动矢量下采样对应图.25 图 4-3 块 a，h，c，d 以及相邻块的位置图.26 图 4-4 四个预测模式对应块 a 的预测相邻块 .27 图 4-5 长方形模板.28 图 4-6 六边行网格搜索 .29 图 4-7 六边形搜索.30 图 4-8 stefan 序列的第九帧 pnsr 比较 .32 图 5-1 i44 和 i1616 的分布图.34 图 5-2 帧内预测模式直方图 .35 图 5-3 帧内预测模式直方图 i44 的预测模式图.35 图 5-4 帧间分割 .36 图 5-5 帧间模式判断流程 .37 图 5-6 各个序列的比较 .39 湖南大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1、保密? ，在年解密后适用本授权书。 2、不保密?。 (请在以上相应方框内打”?”) 作者签名：日期：年月日导师签名：日期：年月日硕士学位论文 1 第 1 章绪论 1.1 研究背景与意义视频转码是指根据网络传输和接收端的限制和需要，将输入的压缩视频码流转换为另一种格式的压缩视频流。这里说的格式主要包括编码的句法参数，编码的分辨率，和编码码率1。如图 1-1 所示：图 1-1 视频转换编码的主要应用场合需要视频转码技术的原因主要有以下几点：第一是各种各样编码标准的并没有统一的接口。目前，已有多种视频编码标准。根据所面向的应用领域不同，视频压缩可以分为二类：面向电视会议应用和面向多媒体应用2。面向电视会议应用主要是由国际电信联盟(itu)制定的 h.26 系列标准。其中 h.261 标准计划以可承担的远程通信比特率操作，并支持在 t1 线路上以小于 150ms 的延迟进行全动态视频传输。 h.263 标准是设计用来为极低比特率视频服务的，它应用在 10-30kps 码率上。 h.264 标准是在近一步的提高视频压缩率，降低视频码率的基础上，增强传输的适应性和抗误码性，从而能更好的在 ip 网络和无 hdtv 广播和视频数据库等。多媒体领域应用主要是在 ccitt 和 iso 的动态图像专家组的 mpeg 系列标准。其中 mpeg-1 是一种适用于光盘只读存储器(cd-rom)的数字多媒体视频编码标准，它支持比特率可达 1.5mbps。mpeg-2 标准是适合于有线电视传送和窄带信道卫星广播，它支持的比特率为 2-10mbps。mpeg-4 标准适用于移动通信和公共交换电话网，它支持 5kbps-64kbp 比特率的低码率和 4mbps 码率的电影应用。第二是复杂多变的网络环境和不同的网络传输带宽。许多不同的网络和网络接入方式，如 lan，xdsl，isdn，无线网络，光纤网络等，有着不同带宽、 h.264 分辨率转码研究和实现 2 丢包率和误码率。第三是各种用户终端如掌上电脑，pda，mp4 以及智能手机广泛应用，具有不同显示能力，运算速度以及存储能力。视频数据必须根据实际的应用环境进行动态调整。视频转码是解决这一难题的关键技术之一1。而空间分辨率转码是指对输入的压缩视频编码流的空间分辨率进行转换,其基本的方法是对输入视频码流先解码,在像素域对视频进行空间分辨率转换，再对转换后视频进行编码。如今高质量，占用大量存储空间的视频内容如 dvd 影片大量涌现，而同时宽带网络和移动多媒体设备也开始大量的流行和普及。随着人们对于在这些移动设备上使用这些高质量，大容量的内容的渴望日益增加，而它们之间的编码标准和用户端的显示分辨率具有很大的不同，如 dvd 一般支持 720 x480 以上的分辨率，其编码格式时 mpeg2，而宽带网络视频播放和移动设备的显示分辨率一般在 352x288 以下，其编码格式推荐为 mpeg4 和 h.264，使得空间分辨率的转换工作显得尤为重要。 1.2 本文研究内容本文完成的研究工作包括研究了分辨率视频转码的系统结构和转码的关键技术。其主要内容有三个方面：第一，研究了实现空间分辨率转码的结构，并总结了转码过程的主要问题、实现方案和关键技术。第二，针对空间分辨率转码的运动矢量重估计，提出了一种混合长方形和六边形模板的运动重估计算法。它利用从 mpeg2 视频流得到的运动矢量的方向导数和梯度信息，预测初始运动矢量，然后结合不同的长方形和六边形网格搜索模板，实现了对运动矢量的快速的重估计。第三，针对空间分辨率转码的模式选择，提出了一种基于局部方向的快速模式选择算法。对于帧內预测宏块，算法主要通过计算宏块模式中预测方向获得预测方向直方图，并选取可能性较高的几种预测模式。对于帧间预测模式，则根据输入运动矢量的梯度方向，选择适合的宏块模式。全文共分五章，组织结构如下：第一章介绍了本文的研究背景和意义。对视频转码的概念和研究的必要性和实际的运用作了介绍。同时简要回顾了视频压缩标准的发展过程和应用范围以及压缩标准的算法的核心结构。第二章介绍了视频转码的分类和系统结构。主要介绍了视频各个类别和目的和实现方法，以及研究热点。同时对转码的各个系统的结构进行了研究，分析了各种结构的优点和缺点，给出了各种系统结构适用的转码类别。其中着重研究了空间分辨率转码的结构特点和研究热点。第三章介绍了 h.264 分辨率转码的系统结构和转码过程中遇到的问题。给出硕士学位论文 3 了 h.264 分辨率转码的系统结构和组成。说明了 h.264 分辨率转码过程中遇到的各种问题，并详细说明了运动重估计和模式选择的两项关键技术，列举了各种算法的原理，和当前的研究进展。第四章详细介绍了基于混合模板的转码运动重估计算法。主要对混合长方形和六边形模板的运动重估计算法进行了详细的理论分析和给出的实现步骤。其中着重说明了搜索模板的选择和搜索路径的优化。第五章详细介绍了局部的方向的快速模式选择算法。其中着重分析了帧内模式的预测方向直方图和帧间模式的输入运动矢量的梯度方向，以及据此得到的快速模式选择算法的步骤。 h.264 分辨率转码研究和实现 4 第 2 章视频转码技术基础 2.1 视频转码的分类视频转码根据应用方向的不同可以分为，码率转码，分辨率转码，语法转码以及错误修复转码3。 2.1.1 码率转换码率变换的目的有二：一是为有效传输和节省带宽；二是为了与特定的编码类/级相兼容。实现编码视频码率变换的直接方法是标准解码器与标准编码器的级联，即先对编码码流解码，然后按新的目标码率对解码重建图像再进行编码。现阶段，码率转换的研究热点主要分为以下几个方向：(1)在压缩域对 dct 系数进行截取和重量化。(2)转换编码器的结构和码率控制算法。(3)消除漂移效应。文献1对 mpeg-2 编码视频流的码率变换进行了比较全面的研究，文献3在假定 mpeg-2 中的运动补偿是一种线性运算的条件下，进行运动补偿预测。 2.1.2 帧率转码对于码率调整型转码器，如果传输网络带宽变化剧烈或者带宽极低，转码器必须通过跳帧技术略过部分输入编码帧，以保证输出码率符合信道要求。跳帧技术是指转码器对部分输入编码帧没有输出。对于异构客户端，如果客户端不支持高帧率，转码器也必须跳帧。现阶段，帧率转码的研究热点主要分为以下几个方向：运动矢量重估计和编码类型选择(刷新 i 帧的选择)的选择。当丢弃帧不仅限于 b 帧时，原码流的部分运动矢量由于其所指向帧在新码流中被丢弃而变得无效，需要对运动矢量进行修正。因此帧率变换的关键问题也归为运动矢量的更新，寻找既能利用原运动矢量信息又不致引入明显的图像质量降低的方案。近几年来许多研究人员已在探讨这个问题，归纳起来主要有两种方法。一种是对运动矢量采用双线性内插5，对内插后矢量进行修正，可以根据跳帧数和运动矢量累计幅度确定搜索范围，在此范围内搜索得到更新。 jeongnam youn 和 ming ting sun 提出了一种称为前向主控矢量的选择法(fdvs)，具有较小的计算量和更好的性能6。它从四个相邻宏块中选择一个主控运动矢量，这个主控运动矢量描述为主控宏块的运动矢量主控宏块是指在输入运动矢量所指向的块中，具有最大重叠部分的那个宏块。meijuan chen 等人随后还提出，可以根据活动性测度选择主控宏块，即用量化的 dct 系数作为选择主控运动矢量的基准7。 2.1.3 空间分辨率转换硕士学位论文 5 空间分辨率转码，对视频编码流的空间分辨率下变换，基本的方法是对输入编码流先解码，在像素域实行向下取样，再进行编码。然而由于运动估计的计算量极大，使得这种转换编码计算量很大。进行空间分辨率下变换的关键问题是寻找低分辨图像编码所需的运动矢量场，需要充分利用输入码流的信息，对高密度的运动矢量场进行抽样。mpeg 和 h26x 编码均由帧内编码和帧间编码组成，帧内编码不包含运动信息，因此只需要对帧间编码图像进行运动矢量抽样。现阶段，空间分辨率转码的研究热点主要分为以下几个方向：运动矢量重估计方法 891011和宏块类型的映射方法1213。运动矢量的重估计主要分为二步：初始运动矢量的估计和运动精细化。主要有三种基本的合成算法：简单平均，中值法和加权平均。而运动矢量的精细化则是在初始运动矢量的基础上，通过适合的搜索方法对运动矢量进一步调整。其主要的研究方向是通过分析运动矢量和残差信息，选择运动搜索的方式。 2.1.4 语法转码语法转码语法转码主要是由于输入和转码后的码流所遵循的压缩标准不同。这部分研究，主要集中在不同标准在具体的语法、码流结构组织上的对应转换。现阶段因为实际中 mpeg 系列(vcd，dvd，rmvb)等在数字多媒体方面的大量应用，而 h.26x 系列在视频会议和视频通信中的应用广泛。现阶段转码的研究重点在于 mpeg 系列到 h.26x 系列的之间的转换和 i，p，b 帧的转换。文献14中对用于异类多媒体网络信息交互的 mpeg-4 与 h263 的转换编码进行了研究，指出了这两种标准在语法结构、帧内编码宏块的交流系数、帧内编码宏块的运动矢量映射等方面的区别。文献15详细分析了 mpeg-1/2 与 h261/h263 间不同图像格式、不同时间与空间分辨率下的转换编码策略。 2.1.5 错误修复转码设计用于无线网络的视频编码系统既要考虑编码的有效性又要考虑减少恶劣传输条件带来的影响。有线信道有相对大的带宽和稳定的较低的误码率，而无线信道通常带宽窄、误码率高且随时间变化。理想的视频系统在解码和编码间采用反馈来适应编码参数随时间改变的条件，因此抗误码性随之改变。但在实际应用中存在许多因素使得采用反馈的方法不可行。因此，文献16采用抗误码视频转换编码来改变一个已编码比特流，目的是先改进它的抗误码性再通过有噪无线信道传输。此前讨论的转换编码是在假定抗误码已由信道编码如 fec 或 arq 完成的条件下，主要考虑码率变换。实际上，仅用信道编码会受抗误码类型的限制，而采用信源编码在提高抗误码能力上更有优势。在某些场合，解码端可能不适合采用信道编码而只能依赖信源编码。文献17回顾了很多基于块编码的视频信源抗误码编码的方法。在信源部分加入抗误码转换编码操作所示。转换编码器对输 h.264 分辨率转码研究和实现 6 入的比特流进行有需部分解码，随后加入抗误码编码，再进行必要的码率下变换，最后对码流再量化并重新进行变长编码。 2.2 转码的系统结构 2.2.1 压缩域和像素域转码系统结构按照是否进行 idct/dct 变换可以分为压缩域和像素域两类1 18。 dct 域上的转码是一种开环结构，在这种转码器中，输入的压缩视频流经过熵解码和逆量化后，再进行重量化和熵编码，最后输出。通常在逆量化时采用一个较大的量化器，然后通过变长编码以获得较高的压缩率。其基本特点是避免了 dct/idct 运算，从而由于编码参数(如运动矢量、编码模式)在转码前后保持不变，所以这种转码器不能实现帧类型转换、帧率变化以及空间分辨率变化，还会导致十分的不灵活19。像素域上的视频转码是一种闭环结构，其实现通常包括两个可以相互独立的模块：解码循环和编码循环。前端解码循环包括熵解码、逆量化、离散余弦逆变换和运动补偿和帧存子功能块；后端编码循环包括离散余弦变换、量化、熵编码以及运动补偿。这种结构非常灵活，其解码循环和编码循环可以相互独立，即解码循环和编码循环可以在不同的比特率、帧率、图像分辨率、编码模式乃至不同的编码标准下工作。同时由于这种转码器首先对压缩流进行解码，然后重压缩，所以在预测编码过程中，不会受到“漂移”的影响。但是，这种转码结构实现复杂，同时对实时应用而言，其计算复杂度比较高20。 2.2.2 码率转码码率转码主要有双环级联，高频截除和重量化三种编码器。图 2-1 码率转码的高频截除图 2-1 给出了高频截除码率转换编码器。这种转码器首先对输入码流进行变字长解码(vld)，根据输出目标码率，使用码率控制算法重新分配每个块的编码比特数，丢弃所分配比特数之后的高频数据变字长码。对于相同标准的同类转换 vld高比特率 2vlc 输入码流码率控制输出码流运动矢量和码流信息硕士学位论文 7 编码，可以直接使用源码流中的未被截除的变字长码，对于不同标准的异类转换编码需要不同的 vlc 表2122。图 2-2 码率转码的重量化重量化结构如图 2-2，与高频截除转换编码器相比，这种结构在进行 vld 后，还进行了反量化处理，得到了 dct 系数。然后根据目标码率选择较大的量化步长对 dct 系数进行重量化，重量化后系数值变小，使 vlc 编码可以获得更高的编码效率，以此来达到降码率的目的2324。由于这两种结构均不对重量化误差作校正，将导致解码器使用带有重量化误差的参考图像进行运动补偿，误差随运动预测不断累积，发散到整个图像中，引起误差漂移。可以这样解释漂移问题，对于编码器，当前编码图像使用运动估计技术从参考图像得到预测图像，并且编码器只对当前图像和预测图像的残差进行编码。对于解码器，当前解码图像通过运动补偿技术从它的参考图像得到预测图像，然后将编码的残差和预测图像相加，得到最后的重构图像。为了使解码器准确无误的工作，在解码器中存储的参考图像必须与编码器中存储的参考图像完全相同。开环转换编码器改变了残差数据，因此，将造成解码器的重构图像与编码器的重构图像不一致。由于参考图像不断被解码重构图像更新，这种误差将会打一散到后续的图像中。这种因为残差编码数据和解码参考图像之间的不匹配所引起的错误积累就叫做漂移，漂移会导致非常严重的视频质量下降25。这种漂移误差只能由不采用运动估计/补偿技术的帧内宏块数据纠正。而双环级联结构其实就是像素域级联结构，如图 2-3 所示。其结构与解码一编码级联结构基本相同，不同之处在于重用了原编码流中的运动矢量和编码模式等信息。由于运动估计约占编码计算量的 60%，直接使用源编码流中的运动矢量可以大幅度降低转换编码的计算量。其编码部分使用重用的运动矢量计算残差数据，根据目标码率重新选择量化参数，并根据量化后的数据进行编码模式修改。这种结构不会引起误差累积，但由于对源码流进行解码过程中存在 idct 等运算的精度损失，送入编码端的图像与原始图像相比，存在误差。而原码流中的宏块编码模式和运动矢量等参数是基于原始图像数据得出的。因此在编码端直接使用这些参数，相对于编码端的参考图像非最优，将导致一定的编码质量下降，但并不明显。码率控制 vld反量化vlc 输入码流输出码流运动矢量和码流信息重量化 h.264 分辨率转码研究和实现 8 图 2-3 双环级联结构 2.2.3 空间分辨率转码空间分辨率变换转码中可能出现两类误差，一类误差为量化误差，与码率变换转码相同，由重量化处理造成。另一类误差为空间下变换运动补偿非兼容误差，为空间分辨率转码所特有26。如图 2-4 所示。图 2-4 空间分辨率像素域结构图 2-4 的结构同样也重用了原编码流中的运动矢量和编码模式等信息。并且因为。只不过为了减少误差，对原码流的运动矢量和编码模式等信息不能直接使用，必须经过运动矢量和重估计和模式选择的重比较过程，来减少上述误差。 2.2.4 帧率转码而时间分辨率的系统结构如图 2-5 所示：运动补偿 vld反量化输入码流输出码流 idct 参考图像 +- dct量化反量化 idct vlc 运动估计参考图像 + 码率控制运动矢量和宏块模式运动补偿 vld反量化输入码流输出码流 idct 参考图像 +- dct量化分辨率 idct vlc 运动估计参考图像 + 码率控制硕士学位论文 9 图 2-5 帧率转码像素域结构帧率转码一般在像素域内进行,这主要是因为转码过程如果丢弃 i 或 p 类型参考帧,将导致运动矢量和模式信息很难预测和复用。在一些对传输带宽要求极低的应用中，比特率和空间分辨率转码后，码率仍较高，可进一步进行时间分辨率转换编码。对含 b 帧的码流，由于 b 帧不做参考帧，丢弃 b 帧是日寸间分辨率下变换最简单的方法。应当指出，这种方法不适用于 h.264 码流，因为 h.264 码流中的 b 条带也可作为预测参考帧。由于 b 帧采用双向预测，压缩率较高，编码比特数较少，丢 b 帧对降低码率通常不能起到明显效果。为满足占用极低带宽的要求，通常还要进行丢弃 p 帧的处理。对终端解码器来说，p 帧丢弃后，参考帧丢失，解码器将使用前一未丢弃的参考帧进行解码重构，这时对运动矢量的预测和复用成为影响跳帧转码算法性能的关键因素之一。同时如何选择跳帧的时机，或者说如何通过选择适合的 p 帧进行丢弃将成为帧率转码的难点。运动补偿 vld反量化输入码流输出码流 idct 参考图像 +- dct量化反量化 idct vlc 运动估计参考图像 + 码率控制预测运动矢量和宏块模式跳帧控制 h.264 分辨率转码研究和实现 10 第 3 章 h.264 空间分辨率转码系统设计 3.1 h.264 和 mpeg-2 的关键技术 mpeg-227的目标是产生 4-8mbps 码率的电视质量和 10-15mbps 码率的高质量图像。mpeg-2 要解决 sdtv 和 hdtv 隔行视频的高质量编码问题。mpeg-2 标准由 9 个部分组成：系统，音频，视频，一致性，软件，数字存储媒体-命令与控制(dsm-cc)，先进音频编码器，实时接口和 dsm-ccy 一致性。 h.264 标准是 itu-t 的 vceg(视频编码专家组)和 iso/iec 的 mpeg(活动图像专家组)的联合视频组(jvt，joint video team)开发的标准，也称为 mpeg-4 avc，它作为 mpeg-4 part10，是“高级视频编码” 。其基本区别如表 3-1: 表 3-1 h.264 和 mpeg2 标准特性比较视频编码标准mpeg2h.264 帧内预测只在频域内进行 dc 系数差分预测基于 44 块，9 种亮度预测模式，4 种色度预测模式参考帧数116 变块运动补偿16x1616x16,16x8,8x16,8x8 8x4,4x8,4x4 b 帧直接编码模式无独立的空域或时域预测模式，若后向参考帧中用于导出运动矢量的块为帧内编码时只是视其运动矢量为 0，依然用于预测 b 帧宏块双向预测模式编码前后两个运动矢量编码前后两个运动矢量运动补偿1/2 像素精度1/2 像素精度变换和量化8x8 浮点 dct 变换,除法量化 44 整数变换，量化与变换相结合，通过乘法、移位实现熵编码单一 vlc 表，适应性差 cavlc,cabac 环路滤波无基于 44 块边缘进行，滤波强度分类繁多，计算复杂容错编码简单的条带划分数据分割、复杂的 fmo/aso 等宏块、条带组织机制、强制 intra 块刷新编码、约束性帧内预测等 3.2 h.264 空域转码需要解决的问题硕士学位论文 11 3.2.1 宏块模式选择宏块模式选择是视频转码中的主要问题之一。特别是在不同的视频编码标准间进行转码时，有效地利用编码的宏块模式信息是优化转码速度的重要手段。视频转码中的宏块模式选择可分为帧内宏块模式选择和帧间宏块模式选择。 3.2.1.1 帧内模式帧内宏块模式选择主要是确定该宏块的帧内预测模式，不同的视频编码标准采用了不同的帧内编码方法。在 mpeg-l/2/4 中，对于帧内宏块的码使用对系数块做 dct 变换并进行 dc 预测的方法。mpeg-4 中还引入了 ac 预测的方法。 h.264 的帧内模式采用空域帧内预测技术来预测相邻块邻近像素的 intra- mb 中的像素。它对预测残差信号和预测模式进行编码，而不是编码块中的实际像素。这样可以显著提高帧内编码效率。根据像条编码类型，每个宏块可以选择几种编码类型之一。所有像条类型支持两级帧内编码，称为 intra-44 和 intra-1616。intra-44 模式基于分别预测每个 44 亮度块，适合表现图像细节部分。而 intra-1616 模式将整个 1616 亮度块进行预测，适合平滑图像区。此外对这两种亮度预测类型，色度单独进行预测。作为 intra-44 和 intra-1616 的另一种选择，i_pcm 编码类型允许编码器简单跳过预测和变换编码过程，直接发送采样值。i_pcm 允许编码器精确地表示采样，通常表示一些反常图像，而没有明显增加数据量在视频转码中，希望能够通过充分利用第一次编码的信息进一步进行模式选择的简化，以达到实时应用的要求。如果原宏块是以空域的帧内预测方式编码，则可以直接利用已有的预测方向作为转码后的帧内预测模式，处理相对简单比较。复杂的情况出现在原始编码宏块可能是以 ac/dc 预测方式编码或是帧间预测编码的情况。在这两类情况下，转码器不能直接获得与空域预测方向有关的信息。 3.2.1.2 帧间模式转码的帧间模式的选择主要有直接映射29和基于分割和合并30的宏块模式选择。直接映射是将转码前视频编码标准中的帧间宏块编码类型映射为转码后视频编码标准中已有的宏块类型，这种是运算复杂度最低的一种宏块模式选择方式。 h.264 支持可变矢量块大小。对于运动较小或者运动比较平滑的地方采用大的分块模式或者 skip 模式。对于运动较不规则的地方采用小的分块模式。其判断标准可以是运动矢量也可以是参差信息，以及宏块模式信息，根据实际的转码类型而择优选择。直接映射的宏块模式选择充分利用了第一次编码的编码信息，在这 h.264 分辨率转码研究和实现 12 种算法下，大部分的宏块并不需要进行真正意义上的模式选择，因此极大地减少了转码时编码端的运算量，可以有效地提高转码速度，但其缺陷也是比较明显的，其中最主要的问题是直接映射不能充分发挥各视频编码标准自身的编码特长以及因为映射错误引起的漂移效应。基于分割和合并的宏块模式选择比较适合于 h.264 的视频转码，这主要因为 h.264 支持可变矢量块大小。其中自上而下的分割算法如图 3-1 所示： 0 01 1 0 0 3 1 2 16x16 16x88x16 8x8 图 3-1 帧间模式自上而下过程如下： (1) 在 1616 的划分上进行运动估值，确定 1616 块的最佳运动矢量。 (2) 以 1616 块的最佳运动矢量为起点，对 168 块做运动搜索，得到最佳的运动矢量。 (3) 以 1616 块的最佳运动矢量为起点，对 816 块做运动搜索，得到最佳的运动矢量。 (4) 以 168 和 816 块搜索得到的运动矢量为起点，对 4 个 88 块进行搜索； (5) 选择率失真开销最小的模式及其对应运动矢量为最佳帧间宏块模式。 (6) 结束。在上述算法中的每一步结果之后可以均可采用提前中断算法，从而加速整个选择过程。当块划分更为精细时，如 h.264 最小可支持 44 的块划分。则在完成对 4 个 88 块的搜索后，对每一个 88 块可以重复上面的自上而下的模式选择过程，即：以 88 块的最佳运动矢量为起点，分别对 84 和 48 块做运动搜索，最后再以 84 和 48 块搜索得到的运动矢量为起点，对 4 个 44 块进行搜索。而自下而上的合并算法如图 3-2 所示：硕士学位论文 13 0 01 1 0 0 3 1 2 16x16 16x88x16 8x8 图 3-2 帧间模式自下而上过程如下： (1) 首先对 4 个 88 块分别进行运动搜索，并确定最佳运动矢量。 (2) 若 4 个 88 块的运动矢量完全相同，则将宏块模式定为 1616，跳至第 9 步；否则，进行第 3 步。 (3) 若 0 号块与 1 号块运动矢量完全相同，且 2 号块与 3 号块运动矢量完全相同，将宏块模式定为 168，跳至第 9 步；否则，进行第 4 步。 (4) 若 0 号块与 2 号块运动矢量完全相同，且 1 号块与 3 号块运动矢量完全相同，将宏块模式定为 816，跳至第 9 步；否则，进行第 5 步。 (5) 以 88 块搜索得到的运动矢量为起点，对 816 块进行运动搜索，得到最佳的运动矢量。 (6) 以 88 块搜索得到的运动矢量为起点，对 168 块进行运动搜索，得到最佳的运动矢量。 (7) 以 168 和 816 块得到的最佳的运动矢量为起点，对 1616 块进行运动搜索。 (8) 选择率失真开销最小的模式及其对应运动矢量为最佳帧间宏块模式。 (9) 结束。由于第一步中对 4 个 88 块的搜索涵盖了比较大的范围，因此自下而上的模式选择算法与自上而下的算法相比，在更大的范围上进行了运动搜索，从而也具有更好的性能。为减少运算量，在 4 个 88 块的搜索之后，各划分的搜索范围可以相应减少。在这一算法中，每一步之后也可以采用提前中断算法，来加速整个选择过程。目前运动估值中的提前中断算法一般可分为两大类：一类是基于对编码系数的预测，当预测编码系数为全零时则认为己找到匹配块，从而不再继续进行运动搜索；另一类则是基于不同预测精度的统计得到相对固定的闭值，或是在编码过程中自适应地对阀值进行调整。 h.264 分辨率转码研究和实现 14 3.2.2 运动矢量的重估计由于运动预测的单位不同等各种原因，从码流中解析出来的运动矢量并不能直接在转码后的标准中使用。例如, mpeg2 采用半像素运动补偿。其首先将图像切为 1616 的宏块，然后寻找在参考图象最接近的区域，并记录其位置差异即运动矢量。根据参考图象的不同，分为前向预测，后向预测和双向预测。从而使传输图像数据变为传输运动矢量。而 h.264 的运动估计支持如下多种特性: (1) 可变矢量块大小。允许采用不同块大小执行运动估计。可以为小至 44 的块传输单个运动矢量，因此在双向预测情况下可以为单个 mb 传输多达 32 个运动矢量。另外还支持 168、88、88、84 和 48 的块大小的运动矢量。降低块大小可以提高运动细节的处理能力，因而提高主观质量感受，包括消除较大的块化失真。 (2) 四分之一像素运动估计。通过允许半像素和四分之一像素运动矢量分辨率可以改善运动矢量的精确度。 (3) 多参考帧预测。16 个不同的参考帧可以用于运动估计，从而可以改善视频质量的主观感受并提高编码效率。 (4) h.264/avc 在很多情况可以利用 b 帧图像作为参考。对双预测的 b 帧图像，采用高级运动预测方法，称为“直接”运动补偿。运动矢量析取就是对从转码前的码流中解析出运动矢量进行处理，使之符合转码后的视频标准。但是由于并未真正的进行运动矢量的搜索，这种情况下获得的运动矢量往往不是最优的，需要通过再搜索等手段对这个运动矢量进行优化，以达到更好的效果。运动矢量的重估计是视频分辨率转码的关键技术，他直接影响转码的速度和转码的质量，以及后续步骤地准确性。运动矢量的重估计有三个要点：1)估计初始运动矢量；2)计算运动搜索范围和提前终止阀值；3)适合的运动搜索算法。 3.2.3 转码延迟对于一个直接级联型的转码器，编码器理论上可以按任意的顺序对视频序列进行编码。然而，在转码器中，当编码顺序与解码顺序不同时，必然需要引入额外的延迟来对解码后的图像进行重排，这样无论对转码时间或图像缓存的大小都会引入额外的开销，而这在实时转码或低延迟转码的应用中是不可接受的。对于编码器，当转码前后的两类视频标准及相应档次与级别支持的图像类型相同时，最直接的方法是重用解码端的图像类型而无须重新定义编码顺序。当两者所支持的图像类型不同，如 mpeg-2 视频支持 b 帧编码而 h.264 sp (simple profile)不支持 b 帧，则在进行转码时必须要进行图像类型的改变，将 mpeg-2 中的 b 帧硕士学位论文 15 重新编码为 mpeg-4 sp 中的 p 帧。还有 h.264 支持多达 16 个参考帧，而 mpeg2 只有 1 或 2 个参考帧以及 h.264/avc 在很多情况可以利用 b 帧图像作为参考。这时的帧重排和延时是很难避免的。 3.2.4 图像类型和帧场转换 mpeg-2 支持以下三种类型帧: (1) i 帧(intra-frame)是帧内压缩，不使用运动补偿，提供中等的压缩比。由于 i 帧不依赖于其他帧，所以是随机存取的入点，同时是解码中的基准帧。 (2) p 帧(predicated-frame)根据前面的 i 帧或 p 帧进行预测，使用运动补偿算法进行压缩，因而压缩比要比 i 帧高，数据量平均达到 i 帧的 1/3 左右。 p 帧是对前后的 b 帧和后继的 p 帧进行解码的基准帧。p 帧本身是有误差的，如果 p 帧的前一个基准帧也是 p 帧，就会造成误差传播。 (3) b 帧(bidirectinal-frame)是基于内插重建的帧，它基于前后的两个 i、p 帧或 p、p 帧，它使用双向预测，数据量平均可以达到 i 帧的 1/9 左右。b 帧本身不作为基准，因此可以在提供更高的压缩比的情况下不传播误差。而 h.264 的帧类型的名字有的相同,但是其特性却有较大变化: (1) idr 帧。任何一个编码序列的开始是即时刷新存储单元(idr)。idr 是一个 i 帧图像，表示后面的图像

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）h264空间分辨率转码研究和实现.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）h264空间分辨率转码研究和实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档