（通信与信息系统专业论文）基于率失真优化的模式选择快速算法研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-23 格式：PDF 页数：57 大小：909.61KB 积分：0 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

（通信与信息系统专业论文）基于率失真优化的模式选择快速算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华中科技大学硕士学位论华中科技大学硕士学位论文文 i 摘摘要要如今，多媒体通信已经成为社会生活中的一个重要部分，人们对视频质量的要求也越来越高。由于多媒体数据尤其是视频数据量的巨大，为了满足传输带宽需求，视频信号通常需要高度压缩，高压缩的结果导致了视频质量的下降。第二代视频压缩标准（h.264、avs等）都采用率失真优化的策略来达到视频质量与码率的平衡。率失真优化带来了高效率编码的同时，带来了编码端的高复杂度。本文首先针对率失真代价计算模型进行研究。然后结合avs的变换量化过程，提出了变换域内的失真计算方法，并通过变换域内的失真来估算图像域内的失真；通过研究avs熵编码的编码过程及变换量化系数的特点，用统计的方法找到了影响编码码长的主要因素，提出了利用非零变换系数估计熵编码码长的模型。实验表明，利用变换域失真估计图像域失真、利用非零系数估计码长，可以保证编码结果的psnr 和码长的变化不大。最后，本文结合avs的帧内和帧间模式选择过程，利用率失真代价计算的新方法提出了一种基于率失真优化的模式选择快速算法。并通过实验得到了码长估计模型中的自适应系数较合适的初值。实验表明，在帧内预测模式和帧间分块模式选择过程中，通过变换域估算得到的失真和码长进行率失真代价计算, 在保证编码过程 psnr和码长变化不大的情况下，降低了60%的率失真计算时间及20%的总编码时间。关键词关键词：率失真；变换域；熵编码；模式选择；失真度估计；码率估计华中科技大学硕士学位论华中科技大学硕士学位论文文 ii abstract nowadays, multimedia communication has become an important part of social life. at the same time, peoples requirements on video quality are also getting higher and higher. due to the large number of data that multimedia and video sequences contain, video signals have to be highly compressed to reduce the redundancy for the demand of the narrow bandwidth, which leads to the decline of video quality. second generation video compression standards, such as h.264 and avs, have adopted a strategy of rate distortion optimizing to achieve balance between video quality and bit-rate. rdo does bring high efficiency while at the same time, brings the high-coding complexity. first, the rdo model is introduced. based on the transform and quantization method of avs, a new distortion calculation technique in the transform domain is proposed, and used to estimate the distortion in the pixel domain. secondly, in response to avs entropy coding features, the main factors of bit-rate using statistical methods are found, base on which, a new model to estimate entropy coding rate through non-zero coefficients is proposed. the experiments show that the distortion measure and rate estimation can make psnr and bit-rate have a little change. at last, apply the new rd cost calculating technique to the intra and inter mode decision process. a new fast mode decision algorithm with rate-distortion optimization is proposed. the proper initial value of the adaptive coefficient is found through experiments. experiments show that during the intra and inter mode decision process, the distortion and bit-rate estimated in the transform domain are used to calculate the rd cost achieves about 60% reduced computation time of rate-distortion cost and saves about 20% total encoding time with little change of psnr and bit-rate. key words：rate-distortion optimization; transform domain; entropy coding; mode decision; distortion measure; rate estimation 独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密，在_年解密后适用本授权书。不保密。（请在以上方框内打）学位论文作者签名：指导教师签名：日期：年月日日期：年月日本论文属于华中科技大学硕士学位论华中科技大学硕士学位论文文 1 1 绪绪论论 1.1 课题研究背景及意义课题研究背景及意义随着信息技术的快速发展，计算机与通信、多媒体技术融合日益紧密，使得多媒体通讯成为信息产业中发展最快、规模最大的产业之一。在视频通信、安全监控与工业自动化，影视娱乐等领域中，人们对数字视频的需求剧增。但是数字视频随着分辨率的增加，数据量也会剧增。在视频存储与视频传输方面都会出现诸多问题。从表 1-1 看出单纯的依靠增加存储器容量、增加网络带宽来实现数字视频的存储与传输是不现实的。因此，数字视频的压缩编码技术成为解决数字视频存储或传输最有效的方法。表 1-1 几种常用数字视频应用的原始数据速率应用种类码率（比特/秒）电话(200-3400hz) 8000 样本数/秒 12 比特/样本 = 96kbps 宽带音频(20-2000hz) 44100 样本数/秒 16 比特/样本 2 信道 = 1.412mbps 桌上电视(qcif) （8+4） 176 144 30 = 9.1mbps 会议电视（cif）（8+4） 352 288 30 = 36.5mbps 普通电视（ccir601）（8+4） 720 480 30 = 167mbps 高清电视（hdtv）（8+4） 1920 1080 30 = 1.18gbps 数字视频的压缩编码是将数字的视频序列精简到用更少的比特数表达的过程。压缩的过程涉及两个互相关联的完整系统，即编码器和解码器。大多数视频编码方法通过减小冗余来实现压缩。冗余可以简单地看作在完整恢复数据时不必要的信息。视频数据中包含空间冗余、时间冗余、信息熵冗余、结构冗余、知识冗余、视觉冗余等1。在时域，时间上相邻的视频帧之间通常会有很强的互相关性，也就是有很强的相似性，特别是当时域的采样频率非常高时，这种相关性更强。在空间域，相邻或相近的像素，其灰度值或色度分量的值总是很相近，相邻像素之间存在很强的相华中科技大学硕士学位论华中科技大学硕士学位论文文 2 关性。通常视频编码器主要包括时域模块、空域模块和熵编码模块来去除各种冗余。 1 时域模块时域模块主要是利用视频图像时间上的相似性,减小时间冗余度。对前后两帧相减(移动物体作相应位移)得到的残差数据进行编码。因为残差数据大量集中于零值附近，可以采用较短的码字传送。大部分视频编码标准确性采用的是基于块的运动估计和补偿。通常将一帧图像划分为若干 16 16 的宏块，然后对宏块继续划分，以 8 8 块或者 4 4 块作为预测补偿和变换的最小单元。以当前图像块在参考图像中的对应位置为中心的一定范围内搜索当前块的最佳匹配块，即与当前块相减后残差能量最小的块。当前图像块与参考图像的最佳匹配块间的位置偏移以运动向量来描述的，一个运动向量代表水平和垂直两个方向上的位移。分块大小对运动估计的效果是有影响的。较小的块可以使运动估计更精确，产生较小的运动残差，可降低码率；另一方面，小的分块需要更多地存储和传输运动矢量，可能增加码率。同样参考帧的多少对运动估计的效果也是有影响的。较多的参考帧可以在时间上选择更匹配的图像块可以在时间上选择更匹配的图像块。但是需要编码更多的运动矢量信息，参考帧信息和图像头信息,可能会增加码率。因此，需要综合码率和失真度进行考虑。 2 空域模块空域模块主要利用视频图像的帧内数据以及预测的帧间误差数据之间的相关性。图像的空间预测编码通过像素点的上方或左边相邻的已经编码块中与当前块相邻的像素值预测当前块的像素值。预测后的残差进一步通过块变换使得变换域数据的相关性减小，使大部分能量集中到少数元素中。变换的方式分为两大类，一类是基于图像的变换，其中最著名的是已经被 jpeg2000 采用23的离散小波变换 dwt。另一类是基于块的变换。变换过程包括正交变换、对变换系数进行量化、及编码三个阶段。正交变换是将空域图像信号映射变换到另一个正交矢量空间如频域，产生一批变换系数，然后对这些变换系数进行编码处理。量化使变换后的系数用较少的位数来表示，量化器结合编码才使大部分数据得以压缩。它是不可逆的，是有损的压缩方法。 3 熵编码模块华中科技大学硕士学位论华中科技大学硕士学位论文文 3 熵编码器是用来压缩前两个模块输出数据的统计冗余，将一系列表征视频序列元素的符号转化为适合传输和存储的压缩比特流。编码的内容主要包括量化的变换系数、运动矢量、重同步标志、各种头信息等。根据香农（shannon）信息论的观点提出的度量信息量的方法4，熵编码的极限为信源图像所含有信息熵(平均信息量) 就是进行编码压缩的理论极限。高于此极限总能找到某种适宜的编码方法逼近信息熵,使一幅图像进行编码后,得到平均比特数为最少,数据压缩比最大。主要的熵编码方法包括变长编码（vlc）、算术编码以及经过改进的基于内容自适应变字长编码（cavlc）和基于内容自适应的二进制算术编码（cabac）等。 1.2 视频编码标准的发展过程视频编码标准的发展过程自 1952 年贝尔实验室 cutler 等人进行差分脉冲编码调制（dpcm）技术的研究开始，视频压缩编码技术经过 50 余年的发展已经成为一个独立的研究领域。视频压缩编码技术图像编码压缩技术的基本思想是去除图像数据中各种相关性所带来的冗余。根据编码技术利用的冗余类型，torres 等人把图像编码分为第一代编码技术和第二代编码技术两个阶段5。第一代的编码技术仅考虑图像及图像序列中的空间冗余、时间冗余和信息熵冗余。其编码方法主要以像素或像素块作为编码实体，没有或较少考虑人类视觉系统。主要的编码方法有：预测编码、变换编码、统计编码、矢量编码、小波编码等6。在上世纪八十年代初，在第一代编码技术的基础上，进一步考虑视觉数据中的结构冗余、知识冗余和视觉冗余，开始产生第二代编码技术，以期获得更高的压缩效率和更好的视觉效果。主要的编码方法有：基于分割的编码方法、基于模型的编码方法和分形编码等。视频压缩编码标准从 1984 年 ccitt(国际电报电话咨询委员会)成立的专家开始研究，己经有 20 多年的历史。国际标准化组织（iso）和国际电信联盟（itu）分别制定并分布了一系列的视频编码标准，形成了当前视频编码标准的两大系列7： mpeg 系列和 h.26x 系列。h.26x 系列标准由 itu/t 组织制定，主要应用于实时视频通信领域。mpeg 系列标准由 iso/iec 组织制定，主要应用于视频存储(dvd)、广播电视、因特网或无线网上的流媒体等。实际上，许多标准是两大国际标准组织合作华中科技大学硕士学位论华中科技大学硕士学位论文文 4 的产物，如 mpeg-2 是 itu-t 与 mpeg 共同完成的标准，mpeg-2 在 itu-t 中被称作 h.262。h.264 是 itu-t 所属 vceg 和 mpeg 组织在 2001 年合作成立的 jvt （joint video team）共同制定的。所以，h.264 在 iso 中被称作 mpeg-4 part10 advanced video coding（avc）。为增强我国在信源编码标准领域的核心竞争力和自主开发能力，国家信息产业部技术司于2002年6月批准成立了数字音视频编码技术标准工作组制定标准avs。已经制定完成的avs-1.0标准主要是面向高清晰度数字电视和激光视盘存储等应用，正在制定的avs-m标准面向新一代移动通信的视频编码应用。以下将针对这些主流的视频编码标准作一个简要的介绍。 1.2.1 h.26x 标准系列标准系列 h.2618是最早的运动图像编码标准，它详细制定了视频编码的各个部分，包括运动补偿的帧间预测、dct 变换、量化、熵编码，以及与固定速率的信道相适配的速率控制等部分。支持 cif 或者 qcif 格式图像，支持 64kbps 整数倍的比特率，典型应用是包括音频在内 128kbps。在 h.261 中，一帧图像不是直接划分为宏块进行编码，而是首先划分为宏块组（gob），每个宏块组包括 3 11 个宏块。对于 cif 格式，每帧图像由 12 个 gob 组成，每个 gob 由 33 个宏块组成。在 h.261 中，帧间预测采用以 16 16 宏块为基础的块匹配算法，运动估计和运动补偿以 16 16 宏块为单位进行，块匹配算法的精度限制为整象素。h.261 视频编码标准的初衷是希望可以用于低码率视频上，如：综合业务数字网(isdn)上的可视电话、视频会议等。不过，h.261 在低码率编码上的实际应用并不令人满意，早已完全被 h.263 所取代。 h.2639是在h.261基础上发展起来的，其标准输入图像格式可以是s-qcif、 qcif、cif、4cif或者16cif的彩色420亚取样图像。在h.263中，每个gob包括 k 16行象素，k由图像分辨率决定。h.263采用基于16 16宏块和8 8数据块为基础的运动估计，块匹配算法可以达到半象素精度，因而与h.261相比具有更佳的匹配精度。 h.263除了基本模式外，还可以有选择地使用4种高级模式（p、b帧模式，重叠块运动补偿模式，大运动矢量模式，基于上下文的算术编码模式），进一步提高压缩效率、华中科技大学硕士学位论华中科技大学硕士学位论文文 5 改善图像质量。h.263的应用范围为低于64kb/s的窄带通信信道上的低码率视频。 h.263+10和h.263+11分别是itu于1998年和2000年制定的h.263的修订版本。它们主要是增加或修正了h.263的一些高级编码模式，不仅保持对旧版本的兼容，而且增加了新的功能。如：支持自定义图像格式；增加新的抗误码技术；支持图像冻结和快照等。这些新功能不但扩展了标准的应用范围，提高了压缩率，而且进一步改善了重建图像的主观质量。 h.26412作为 iso/iec 与 itu-t 的联合视频组 jvt 制定的新一代的国际视频标准。在相同的重建图像质量下，h.264比h.263+和mpeg-4(sp)减小50%码率。对信道时延的适应性较强，既可工作于低时延模式以满足实时业务，如会议电视等；又可工作于无时延限制的场合，如视频存储等。提高网络适应性，采用网络友好的结构和语法，加强对误码和丢包的处理，提高解码器的差错恢复能力。在编/解码器中采用复杂度可分级设计，在图像质量和编码处理之间可分级，以适应不同复杂度的应用。 h.264采用了很多先进的技术，包括4 4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比，同时大大提高了算法的复杂度。h.264 的算法在概念上可以分为两层：a、视频编码层（vcl：video coding layer）。vcl 层负责高效的视频内容表示，包括基于块的运动补偿混合编码和一些新特性； b、网络提取层（nal： network abstraction layer）。nal 负责以网络所要求的恰当的方式对数据进行打包和传送。在 vcl 和 nal 之间定义了一个基于分组方式的接口，打包和相应的信令属于 nal 的一部分。这样，高编码效率和网络友好性的任务分别由vcl 和 nal 来完成。h.264将先进帧内预测模式、基于上下文的算术编码模式等h.263中的可选模式作为基本模式。通过当前宏块上边和左边的宏块来预测当前宏块值，再用dct变换来编码预测宏块与当前宏块的差值。由于差值一般比当前宏块的实际值小，dct变换后会出现更多的全零块，从而可以降低需要编码的数据量，减少码率。基于上下文的算术编码采用了 cavlc 和 cabac 两种模式可以在运动估计和dct变换的基础上进一步压缩码率。另外h.264还加入了一些新的研究成果。dct变换采用4 4整数dct变华中科技大学硕士学位论华中科技大学硕士学位论文文 6 换取代了浮点dct变换，解决了编码和解码的失配问题且大大减小计算复杂度。量化技术采用了两种逆扫描模式，对数形式的量化控制。采用7种不同大小的数据块作为运动估计块匹配的基本单元。当视频图像变化简单时，可以和h.261、h.263一样，采用基于16 16的数据块或者8 8数据块的运动估计，而对于运动较复杂以及运动细部较多的视频序列，可以采用基于8 4的数据块或者4 4的数据块作为块匹配的基本单元，从而更好地实现运动补偿，减少数码率。采用了可选的1/4（1/8）象素的运动估计、多模式的运动矢量估计。提高了运动估计和运动补偿的精度。运动补偿采用多参考帧模式，最多可以有31个参考帧。采用率失真函数为每个宏块选择率失真性能最优的编码模式。 1.2.2 mpegx 标准系列标准系列 mpegx 系列标准主要包括应用于 vcd 业务的 mpeg113；应用于 dvd 业务的 mpeg214；更高压缩效率与应用范围的 mpeg415；以及多媒体描述标准 mpeg716、多媒体框架标准 mpeg2117等。 mpeg-1标准制定于1992 年。按照图像组的机制（gop）组织编码图像序列，一个gop中包含至少有一个i帧，可以包括p帧和b帧。 i帧采用帧内编码模式， 8x8dct 变换，对不同频率的变换系数可以依据人眼视觉特性设定不同的量化权重，提供默认的8x8权重矩阵。直流系数采用差分编码，变换系数采用统一量化步长、zig-zag扫描、游程编码、熵编码。p帧采用基于运动补偿的预测技术（dpcm），采用半像素精度的运动补偿，双线性插值。每个宏块一个运动矢量，运动矢量也采用差分编码，预测的残差编码采用8x8dct、统一的门限量化、与i帧相同的zig-zag扫描。b帧编码有两个相邻的预测参考帧。可以有一个前向预测或一个后向预测或两个预测结果的平均。采用半像素精度运动补偿，双线性插值。变换和熵编码和p帧相同，采用统一量化。mpeg-1主要应用在vcd，同时也被用于数字电话网络上的视频传输，如非对称数字用户线路(adsl)，视频点播(vod)，以及教育网络等。 mpeg-2 制定于 1994 年。mpeg-2 可提供一个较广范围的可变压缩比，以适应不同。mpeg-2 是 mpeg-1 的一个超集，能兼容 mpeg-1，但并不是 mpeg-1 的华中科技大学硕士学位论华中科技大学硕士学位论文文 7 简单升级。在 mpeg-1 标准的基础上，引入了类(profile)和级(level)两个概念，在系统层和传输方面进行了进一步的完善，并做了更加详细的规定。mpeg-2 比 mpeg-1 增加了隔行扫描电视的编码，提供了位速率的可伸缩性（scalability）功能。mpeg-2 标准能主要应用在可视电话、数字电视、广播、通信、网络等领域。 mpeg-4标准采用基于对象的编码，更加注重多媒体系统的交互性和灵活性。 mpeg-4扩充了编码的数据类型，由自然数据对象扩展到计算机生成的合成数据对象，采用合成对象/自然对象混合编码算法；在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。mpeg-4具有很好的扩展性，可根据带宽和误码率的客观条件可进行时域和空域的扩展时域扩展指在带宽允许时增加帧率，带宽窄时减少帧率，以达到充分利用带宽的目的。空域扩展是指对图像进行采样插值，增加或减少空间分辨率。mpeg-4标准的目标是支持多种多媒体应用（侧重于对多媒体信息内容的访问），满足新一代高度交互性多媒体应用系统的需求，并可根据应用要求配置解码器。mpeg-4标准的应用范围很广，它既可用于4mbps的高码率视频压缩，也可用于5-64kbps的低码率视频压缩编码；既可用于传统的矩形帧图像，又可用于任意形状的视频对象压缩编码。 mpeg-7 是继 mpeg-1, mpeg-2, mpeg-4 之后制定的新标准，名称叫做 multimedia content description interface（多媒体内容描述接口）。但它与前三个 mpeg 标准不同的是，它超越了基于波形或基于样本、基于压缩（如 mpeg-1 和 mpeg-2）甚至是基于对象（如 mpeg-4）的表示，也超越了具体的存储方式（如可以应用于存储在磁带、影片等上的模拟信号，也可以应用于存储在磁盘、光盘上的数字信号，甚至可应用于存在于纸上的图片），它本身并不试图定义一种新的数字压缩方法，而是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效的检索信息。 mpeg-21主要是实现一个多媒体框架(multimedia framework)将现有标准真正做到配套衔接，协调各个标准之间存在的缺漏。mpeg-21 可以描述成一些关键技术的集成，这些技术可以通过访问全球网络和设备实现对多媒体资源的透明和增强地使用。目前该标准处于刚刚启动阶段。华中科技大学硕士学位论华中科技大学硕士学位论文文 8 1.3 论文选题和主要工作论文选题和主要工作本人作为湖北省自然科学基金项目基于移动多媒体的高质量图像/视频编解码（no. cgz0223）项目组的主要研究人员，对基于最新视频编码标准h.264/avc和 avs的各种视频编码技术进行了研究，主要研究了编码端的优化算法。在保证视频的主客观质量变化不大、比特率变化不大的情况下，简化率失真代价计算，快速实现编码端的模式选择过程，降低了编码器端的运算复杂度。本文的内容安排如下。第一章介绍了数字视频的编码压缩方法及一般视频编码器的原理与结构。介绍了 mpegx 系列、h.26x 系列编码标准及各标准的关键技术和显著特点。第二章研究了国内的视频编码新技术 avs 的码流结构，并对 avs 的关键技术进行了一个整体的分析。第三章研究率失真算法的基本思想及 h.264、 avs 中的率失真代价计算函数。然后通过对 avs 编码标准中的变换量化及熵编码的研究分析，提出了在变换域中估算编码的失真与编码码长。通过理论的推导，使用变换域内失真 tdd 估计图像域内的失真 ssd。通过实验统计，找出了残差系数中的非零系数的个数和非零系数绝对值与 avs 熵编码码长之间的关系，建立了新模型来估算残差系数熵编码的码长。并将该模型与目前的一种利用非零系数大小与非零系数位置信息估算码长的模型进行了比较。第四章研究了帧内预测模式与帧间分块模式的选择过程。然后通过改进的率失真代价计算方法分别对帧内预测模式和帧间分块模式的选择过程进行优化，给出了实验结果并对结果进行分析。第五章对全文工作进行总结，并对有待继续研究的工作提出初步设想。华中科技大学硕士学位论华中科技大学硕士学位论文文 9 2 avs 视频编码技术视频编码技术 avs标准是信息技术先进音视频编码系列标准的简称，由国家信息产业部科学技术司于2002年6月批准成立。工作组的任务是面向我国的信息产业需求，联合国内企业和科研机构，制修订数字音视频的压缩、解压缩、处理和表示等共性技术标准，为数字音视频设备与系统提供高效经济的编解码技术，服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。 avs包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。avs视频编码标准主要是为了适应数字电视广播、数字存储媒体、因特网流媒体、多媒体通信等应用中大尺寸、高质量的运动图像压缩的需要而制定的。目前avs标准中涉及视频压缩编码的有两个独立的部分：avs第二部分（avs-p2），主要针对高清晰度数字电视广播和高密度存储媒体应用18；avs第七部分（avs-p7），主要针对低码率、低复杂度、较低图像分辨率的移动媒体应用19。本文主要介绍 avs-p2，以下avs介绍不做特别说明均代表avs-p2。avs视频标准采用与h.264标准类似的技术框架，在性能上与h.264持平，在技术更简洁。同时avs系统级兼容现有 mpeg-2系统，现有基于mpeg-2编辑和传输系统不需改变。avs视频编码器结构如图2-1。运动估值环路滤波帧存 + 运动补偿帧内预测 ict/q熵编码 + q-1/ict-1 视频比特流 - 图 2-1 avs 视频编码器框图华中科技大学硕士学位论华中科技大学硕士学位论文文 10 2.1 编码比特流结构编码比特流结构 avs码流结构语法层次从高到低依次为序列、图像、条带、宏块、块。各个层次的码流信息都是在起始码之后的。起始码是一组特定的比特串，由标准定义。起始码由起始码前缀和起始码值构成。起始码前缀是比特串0 x000001，起始码值则是由标准定义的一个8比特整数，用来表示起始码的类型。视频序列是比特流的最高层语法结构。视频序列由序列头开始，后面跟着一个或多个编码图像，每帧图像之前应有图像头。编码图像在比特流中按比特流顺序排列，比特流顺序应与解码顺序相同。解码顺序可与显示顺序不相同。序列结束码表明了一个视频序列的结束。序列头可在比特流中重复出现，称为重复序列头。使用重复序列头的主要目的是支持对视频序列的随机访问。一幅图像是一帧，其编码数据由图像起始码开始，到序列起始码、序列结束码或图像起始码结束。在比特流中，隔行扫描图像的两场的编码数据可依次出现，也可交织出现。两场数据的解码和显示顺序在图像头中规定。avs支持三种编码图像：帧内解码图像（i帧），前向帧间解码图像（p帧），双向帧间解码图像（b帧）。i 帧是帧内编码帧，编码过程全部使用帧内数据。p帧或b帧最多可有两帧参考图像。p 帧可参考前向的两帧。在同一帧中，后解码的场还可参考当前帧的另外一场。b帧可参考一前一后的两帧。如果视频序列中没有b帧，解码顺序与显示顺序相同。如果视频序列中包含b帧，解码顺序与显示顺序不同，解码图像输出显示前应进行图像重排序。重排序规则如下：（1）当前解码图像是 b 帧，输出由此 b 帧解码的图像。（2）当前解码图像是i帧或p帧，如果存在前一个i帧或p帧的解码图像，输出前一个解码图像。如果不存在前一个i帧或p帧的解码图像，不输出任何解码图像。（3）完成（1）（2）后，如果缓冲区中还有未输出的解码图像，则输出该图像。举例说明图像重排序：i帧和p帧之间有两个b帧，两个连续的p帧之间也有两个b 帧。用图像1i预测图像4p，用图像4p和1i预测图像2b和3b。解码顺序是1i，4p，2b，华中科技大学硕士学位论华中科技大学硕士学位论文文 11 3b；显示顺序是1i，2b，3b，4p。下表列出了编码器输入顺序、解码顺序及解码器输出即显示顺序。表2.1a 编码器输入顺序 1 2 3 4 5 6 7 8 9 10 11 12 13 i b b p b b p b b i b b p 表2.1b 解码输入顺序 1 4 2 3 7 5 6 10 8 9 13 11 12 i p b b p b b i b b p b b 表2.1c 解码器输出顺序（显示顺序） 1 2 3 4 5 6 7 8 9 10 11 12 13 i b b p b b p b b i b b p avs支持三种图像格式，如图2-2所示。对于4:2:0格式，cb和cr矩阵水平和垂直方向的尺寸都只有y矩阵的一半。对于4:2:2格式，cb和cr矩阵在水平方向的尺寸只有y矩阵的一半，在垂直方向的尺寸和y相同。对于4:4:4格式，cb和cr矩阵在水平和垂直方向的尺寸都和y矩阵一样。图 2-2 avs 支持的三种图像格式（从左到右依次为 4:2:0，4:2:2，4:4:4）条带是按光栅扫描顺序连续的若干宏块行，条带内的宏块行不应重叠，条带之间也不应重叠。条带内宏块的解码处理不应使用本图像其它条带的数据。如果隔行图像的两场数据依次出现，这两场数据应属于不同的条带。条带的作用是防止误码扩散。图像划分为16 16的宏块。在比特流中，当隔行扫描图像的两场编码数据依次出现时，任一宏块的像素来自同一场。用于运动补偿的宏块划分如图2-3所示，avs最华中科技大学硕士学位论华中科技大学硕士学位论文文 12 小的图像单元为8x8块，在4:2:0的图像格式下，一个宏块包括4个8 8亮度块（y）和2 个8 8色度块（1个cb，1个cr）；在4:2:2的图像格式下，一个宏块包括4个8 8亮度块（y）和4个8 8色度块（2个cb，2个cr）；在4:4:4的图像格式下，一个宏块包括4个 8 8亮度块（y）和8个8 8色度块（4个cb，4个cr）。 0 0 1 01 01 23 1个1616亮度块和相应的色度块宏块划分宏块划分 2个168亮度块和相应的色度块 4个88亮度块和相应的色度块 2个816亮度块和相应的色度块图 2-3 用于运动补偿的宏块的划分 2.2 avs 的关键技术的关键技术 2.2.1 变换量化变换量化 avs 类似于 h.264 采用二维整数余弦变换（ict）。ict 变换可以保证编码端和解码端不会因为变换出现精度损失，避免了编码器和解码器的失配现象。同时整数变换的硬件实现方式也比浮点 dct 变换简单。avs 与 h.264 的不同在于其采用 8 8 块作为变换的基本单元，而 h.264 的最小变换单位为 4 4 块。 4 4 变换的优点在于变换过程只需要移位和累加，运算简单。但是块的去相关性不够。avs 避开 h.264 的专利问题，选择了以往标准广泛采用的 8 8 变换尺度。实验验证 8 8 变换在高清晰电视这类应用中的性能不会比 4 4 变换差。avs 采用了 64 级量化，可以完全适应不同的应用和业务对码率和质量的要求。 avs 编码器变换时采用变换矩阵 t 对 8 8 块的残差数据进行矩阵变换。变换过程为（txtt）5，其中 x 为残差数据，tt为变换矩阵的转置。反变换过程为（ttyt3）7，其中 y 为反量化后的数据。变换和反变换过程的移位都是为了控制数据的范围。由于采用 ict，各变换基矢量的模大小不一，因此必须对变换系数进行不同程度的缩放以达到归一化。为了减少乘法的次数，h.264 中将正向缩放和量化结合在一起操作；反向缩放和反量化结合在一起操作。在 avs 中，正向缩放、量华中科技大学硕士学位论华中科技大学硕士学位论文文 13 化、反向缩放结合在一起，而解码端只进行反量化，不再需要反缩放。 2.2.2 帧内预测帧内预测 avs 类似于 h.264 则采用相邻像素进行多方向的空间域帧内预测。与传统的频域内的帧内预测如：mpeg-2 的直流系数（dc）差分预测、mpeg-4 的 dc 及高频系数（ac）预测相比，基于空域多方向的帧内预测提高了预测精度，从而提高了编码效率。各种预测方向对应一种预测模式。预测图像与原始图像相减得到的预测残差的能量是选择何种预测模式的关键。h.264 中引入率失真优化的方法，通过某种模式预测后得到的预测残差经变换量化编码后得到的码长 r 与对应的重建 intra 块的失真度 d 加权求和，得到该种模式的编码代价做为选择编码模式的标准。此种方式带来的问题是要遍历各种预测模式。在 h.264 中，利用该块左边和上方相邻块的元素直接预测该块的系数，亮度块的预测根据预测的方向不同，共分为 9 种模式。同时还分为 16 16 和 4 4 两种分块方法。根据率失真的方法需要遍历各种模式，编码复杂度很高。最优和次优模式的编码性能可能差异不大，但计算量的开销对于需要实时传输的视频应用是难以忍受的。故 avs 亮度预测都是以 8 8 块为单位的，同时将 4 种使用概率较小的预测模式去掉，只保留 5 种常用模式。图 2-4 显示了 avs 的各种亮度帧内预测模式。色度预测则采用 4 种预测模式。这种改变对编码器的率失真性能并没有明显影响，而且提高了运算效率。华中科技大学硕士学位论华中科技大学硕士学位论文文 14 r r 1 12 2 1 1 4 4 5 5 6 6 2 2 0 0 3 3 1010 1515 1111 8 8 1616 9 9 7 7 1414 1313 1212 151514141313121211119 910108 87 76 65 54 43 3 1616 c c 0 0 1 1 4 4 3 3 3 3 图 2-4 avs 的亮度帧内预测模式 2.2.3 帧间预测和分像素插值帧间预测和分像素插值多参考帧预测可以使当前块从参考帧图像中寻找更好的匹配, 能够提高编码效率。但一般来讲 23 个参考帧基本上能达到最高的性能, 更多的参考图像对性能提升影响甚微, 复杂度却会成倍增加。相对于 h.264 繁琐的多参考帧管理机制， avs 限定最多采用 2 个参考帧，在没有增大缓冲区的条件下提高了编码效率。avs 支持 p 帧和 b 帧两种帧间预测图像。p 帧至多采用 2 个前向参考帧，b 帧采用前、后各一个参考帧。avs 对预测得到的运动矢量采用差分编码，充分利用相邻块的运动相关性，通过上方和左边相邻块的运动矢量预测当前块的运动矢量，只编码传送预测值与实际值的差值。 p 帧有 5 种预测模式： p_skip、 p_16 16、 p_16 8、 p_8 16 和 p_8 8。其中 skip 模式不编码运动补偿的残差，也不传送运动矢量，运动矢量由该块的相邻华中科技大学硕士学位论华中科技大学硕士学位论文文 15 块的运动矢量通过缩放得到，由得到的运动矢量指向的参考图像直接获得运动补偿图像。b 帧有两种模式：对称模式和直接模式，这两种双向预测模式充分利用了连续图像的运动连续性。 avs 帧间运动补偿时，亮度和色度的运动矢量精度分别为 1/4 和 1/8 像素，因此需要相应的分像素插值。亮度分像素插值分成 1/2 和 1/4 像素插值两步。如图 2-5 所示，通过 4 抽头滤波器（-1,5,5,-1）得到半像素点 aa、bb、cc、ee、ff 及 b、s、h、 m、g，再经过 4 抽头滤波器（1,7,7,1）得到四分之一像素 a、c、d、n、f、q、i、k，最后通过均值滤波器得到四分之一像素点 e、g、p、r。滤波器的复杂度减小，在不降低性能的情况下减少插值所需要的参考像素点，减小了数据存取带宽需求，这在高分辨率视频压缩应用中是非常有意义的。 ab c aa ee ccbb f jg lkdd gg ffhh abc efgd ijk mh pq rn s ed ih 图 2-5 参考图像整数样本、二分之一样本和四分之一样本的位置 2.2.4 熵编码熵编码 avs 中所有语法元素码均采用 k 阶指数哥伦布码或定长码进行编码。定长码用华中科技大学硕士学位论华中科技大学硕士学位论文文 16 来编码具有均匀分布的语法元素，指数哥伦布码用来编码可变概率分布的语法元素。 cbp，宏块模式、运动矢量等用 0 阶指数哥伦布码编码。而 8 8 块变换系数则采用基于上下文的 2d_vlc 来编码。用已编码的系数来确定 vlc 码表的切换。对不同类型的变换块分别用不同的 vlc 表编码。avs 共定义了 19 个 2d-vlc 表，其中 7 个 vlc_intra 表，7 个 vlc_inter 表，5 个 vlc_chroma 表。指数哥伦布码的码字结构非常规则，解码器不需要存储码表。量化系数使用的 19 个 2d-vlc 表所需要的存储空间少于 2k。本文在第三章对熵编码进行了详细介绍。 2.2.5 环路滤波环路滤波基于块的视频编码方法很容易带来方块效应。avs 定义了自适应环路滤波器来消除方块效应，改善重建图像的主观质量，同时提高编码效率。除图像边界及条带的边界之外，宏块的所有边界都应进行滤波。宏块边界如图 2-6 所示，包括宏块内部各个 88 块的边界，以及当前宏块与相邻宏块的上边界和左边界。滤波过程首先从左到右对垂直边界滤波，然后从上到下对水平边界滤波。滤波强度由宏块编码模式、量化参数、运动矢量等决定。当前宏块的上边或者左边的样本值可能在以前的宏块环路滤波过程中已经被修改，当前宏块的环路滤波的输入为这些可能被修改的样本值，并且当前宏块环路滤波可能进一步修改这些样本值。当前宏块垂直边界滤波过程中修改的样本值作为水平边界滤波过程的输入。 bsv00 bsv10bsv11 宏块亮度边界 bsh00 bsv01 bsh01 bsh10bsh11 bsh00bsh01 bsv00 bsv10 宏块色度边界(cb 或 cr ) 图 2-6 宏块边界示意图华中科技大学硕士学位论华中科技大学硕士学位论文文 17 2.3 本章小结本章小结本章分析研究了国内最新的视频编码标准 avs。首先分析了 avs 编码比特流结构，依次介绍了 avs 码流结构语法的各个层次（包括序列、图像、宏块等）。然后详细地分析了 avs 中的关键技术。包括变换量化技术、帧内预测、帧间预测与分像素插值、熵编码、环路滤波等。华中科技大学硕士学位论华中科技大学硕士学位论文文 18 3 率失真优化模型率失真优化模型 3.1 率失真优化的基本思想率失真优化的基本思想在实际的应用中，人们并不期望完真地恢复消息，只期望保证一定的失真度情况下近似地恢复消息。香农（shannon）信息论的率失真理论20问题揭示了编码的数据率与失真度之间的关系。根据率失真理论，在允许一定失真 d 的条件下，信源输出信息速率最低可以压缩到 r（d）。在视频传输过程中, 为了在目标数据率的限制下使得传输的视频信号的失真达到最小, 需要在编码比特率和图像失真之间必需选

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于率失真优化的模式选择快速算法研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于率失真优化的模式选择快速算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档