（交通信息工程及控制专业论文）H264帧内帧间预测算法的优化.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：56 大小：1.76MB 积分：0 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

（交通信息工程及控制专业论文）H264帧内帧间预测算法的优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要作为新一代的视频编码标准，h 2 6 4 提出了许多新的思想和算法，大幅度提高了编码效率和图像质量。但h 2 6 4 编码效率的提升是以计算复杂度的增加为代价的，与m p e g 4 简单配置相比，h 2 6 4 主要配置下解码复杂度提高了3 倍以上，而编码复杂度更是增加了1 0 倍。本文的主要工作是对h 2 6 4 软件编码器进行从算法级的优化。分别提出了帧间预测的快速搜索算法和帧内预测的快速模式选择算法。本文提出的快速搜索算法通过判断块的运动类型，以选择最优的搜索策略，有效地减少了搜索点数，提高了编码效率。本文提出的快速模式选择算法，通过利用边缘方向矢量信息和空间相关性，能有效地降低模式选择的计算复杂度。关键词：帧间预测帧内预测运动估计模式选择 a b s 仃j a c t a b s t r a c t a 5t h en e w e s tg e n e r a t i o no fv i d e oc o d i n gs t a n d a r d h 2 6 4i n h e r i t sm e r i t sf r o m c o n t e m p o r a r yv i d e oc o d i n gs t a n d a r d sa sw e l la sb r i n g su pm a n yn e wi d e a st oa c h i e v ea b e t t e rc o m p r e s s i o np e r f o r m a n c e b u tt h ep e r f o r m a n c ei m p r o v e m e n ti sa tt h ee x p e n s eo f c o m p u t a t i o n a lc o m p l e x i t yi n c r e m e n t h 2 6 4m a i np r o f i l ed e c o d e rr e q u i r e s3t i m e s c o m p u t i n gc a p a b i l i t yt h a nm p e g 4s i m p l ep r o f i l e ，a n da ni n c r e a s eo fm o r et h a no n e o r d e ro fm a g n i t u d eo ft h ec o m p u t a t i o n a lc o m p l e x i t yi sr e p o r t e da te n c o d e re n d i nt h i s p a p e r , o u rw o r ki sm a i n l yf o c u s e do na l g o r i t h m l e v e lo fh 2 6 4s o f t w a r ee n c o d e r o p t i m i z a t i o n w ep r o p o s ean o v e lf a s ti n t e rp r e d i c t i o n 簖a r c h m ga l g o r i t h ma n daf a s t i n t r ap r e d i c t i o nm o d es e l e c t i o na l g o r i t h m t h ef a s t s e a r c h i n ga l g o r i t h mc h o o s et h e o p t i m i z i n gs e a r c h i n gs t r a t e g yb yj a d # n gt h em o t i o nt y p e so fc u r r e n tb l o c kw h i c h d e c r e a s et h e s e a r c i l i n gp o i n te f f e c t i v e l y t h e f a s tm o d es e l e c t i o n a l g o r i t h m c a n e f f e c t i v e l yd e c r e a s et h ec o m p l e x i t yo fm o d es e l e c t i o nb yu s i n ge d g ed k e c t i o nv e c t o r a n d s p a c er e l a t i v i t y k e y w o r d ：i n t e rp r e d i c t i o n i n t r ap r e d i c t i o nm o t i o ne s t i m a t i o nm o d es e l e c t i o n 西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学分和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。本人签名：薹! ! ! 叁日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。( 保密的论文在解密后遵守此规定) 本人签名：塞塑! 鱼导师签名：望日期翌：! ：日期狃厶尘：第一章绪论第一章绪论 1 1 引言随着上世纪七十年代后期大规模和超大规模集成电路技术、数字信号处理技术、计算机技术、通信技术的跨越式飞速发展，人类社会进入了信息时代，人们对通信业务的要求不断增长，图像通信和通信网容量的矛盾日益突出，尤其是具有庞大数据量的视频图像通信，更是很难传输和存储，极大的制约了图像通信的发展。例如普通p a l 制彩色电视信号，每采样点8 b i t 量化，色度格式为4 ：2 ：2 时，每秒数据量高达2 7 m b ，如此庞大的数据量，如果不进行数据压缩，将无法进行存储和传输，这就使得视频压缩技术成为多媒体技术的关键所在。 1 2 视频编码原理从上个世纪8 0 年代开始，i s o i e c 和u t 这两大组织就已经不断的推出一系列针对不同应用领域的数字视频编码标准，这其中包括i s o i e c 的m p e g 系列和r r u - t 的h 2 6 x 系列，图1 1 是数字视频编码标准的发展过程：国丑匾丑 i 热 e 三i - 一蛳翳硼t 嘲1 蛐1 嘲1 雠螂跏瑚2 糊图l 1 视频编码标准的演进这些视频编码标准涵盖了广阔的视频码率范围和应用领域，支持不同速率、不同图像质量要求的视频业务，满足包括电视会议、视频电子邮件、可视电话、广播级视频应用等不同要求的服务。虽然不同的标准面向的应用以及编码的性能是不同的，但是它们却有许多共同点。从图1 2 中，我们可以看出现代的视频编码器包含三个主要的功能模块，变换编码、运动补偿、以及熵编码。许多时候这种变换编码+ 运动补偿的结构也被称为混合编码( h y b r i dc o d i n g ) 。 2 h 2 6 4 帧内帧间预测算法的优化去除时间冗余度图1 2 典型视频编码器框图之所以大多数视频编码都采用这种结构，主要是为了消除视频信号中的冗余，从而实现对视频的压缩，视频序列中的冗余主要有以下几个方面：空间冗余空间冗余是指在同一帧画面中，相邻像素间存在的相关性，特别是当这些相邻像素位于同一个视频对象中时，相关性极强。例如在图像的背景区域。时间冗余通常对于一个视频序列，除非场景切换，否则连续帧在时间上都是连续的。在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动和对象的移动使得空间位置发生变化，运动越缓慢，空间位置的变化越小。因此视频序列在时域上存在极强的相关性。统计冗余统计冗余是指码流中各符号间的相关性。对于编码符号，其平均码长长于所标示信息的信息熵的差值就是统计冗余。视频编码和一般的信源编码一样，也可以采用无损压缩编码和有损压缩编码两种方式。虽然无损编码可以无失真的恢复原始数据，但其压缩效率十分有限。因此在视频压缩中都是将无损压缩编码和有损压缩编码结合起来使用。视频编码中主要采用以下几种压缩技术：预测编码预测编码不是对一个像素直接编码，而是用同一帧( 帧内预测编码) 或相邻帧( 帧间预测编码) 中的像素值来进行预测，然后对预测残差( e s t i m a t i o nr e s i d u a l ) 进行量化和编码。显然预测编码是利用图像数据中的时间冗余和空间冗余。本文第一章绪论 3 论述的重点正是帧内帧间预测编码技术。变换编码变换编码是构成当前主要视频编码标准的另一项基本技术，用来消除图像的频域( 变换域) 冗余。正交变换编码通常是将空域相关的像素点映射到另一个正交矢量空间，使得变换后的系数之间的相关性降低。常见的正交变换有k - l ( k a r h u n e n l o e v e ) 变换、离散傅立叶变换( d i s c r e t ef o u r i e rt r a n s f o r m ，d f t ) 、离散余弦变换”1 ( d i s c r e t e c o s i n et r a n s f o r m ，d c t ) 、w a l s h h a d a m a r d 变换和h a r t 变换、k - l 变换是均方误差准则下的最优变换，但实现困难。在现行的编码标准中，几乎都采用了性能最接近k - l 变换的d c t 。由于d c t 采用实数计算，而且大量的有效的快速算法的出现，使得硬件实现成为可能，因而被大量采用。h 2 6 4 采用与d c t 变换增益相同的4 x 4 像素整数变换，进一步减少了运算量。变换编码除了采用正交变换编码外，还有子带编码和小波编码。子带编码是将图像分离成几个不同频段的子带( s u b b a n d ) ，对不同的子带设计不同的编码参数，提高图像质量。小波变换编码充分利用了小波分析在时域和频域同时具有良好的局部化特性，与人眼视觉特性相符的多分辨率能力，分解系数分布平稳，自然分级的金字塔式的数据结构的优点，在视频压缩领域引起广泛关注。由于小波变换的金字塔式的数据结构每一层都包含整个图像的信息，只是其中的分辨率不同。因此可以选择传送部分还是全部，非常简单而自然的实现可分级视频编码，而且不会产生块效应。统计编码根据香农信息论的观点，信源冗余度来自信源本身的相关性和信源内部事件概率分布的不均匀性。统计编码主要有基于概率特性的霍夫曼编码和算术编码，以及基于相关性的游程长度编码三类。霍夫曼编码严重依赖信源的统计特性，编码前必须要有信源概率分布的先验知识。对于复杂的视频来说，只能用对大量数据统计后的获得的近似分布来代替，因此实际应用时无法达到最佳性能，而且也不利于硬件实现。游程长度编码将符号值相同的连续符号串用一个代表值( 符号值) 和一个游程长度( 符号个数) 来表示。在视频压缩中，量化后的数据常常出现大量的连续为零的数据串，游程长度编码可以有效的降低表示它的比特数。算术编码利用【0 ，1 】之间的概率区间来表示数据序列，每输入一位数据，将重新统计更新当前各符号出现的条件概率，荠根据该条件概率改变输出的概率数。 1 3 重要视频编码标准简介 2 0 世纪9 0 年代以来，随着技术的不断发展，i t u t 和i s o 推出了一系列多 4 h 2 6 4 帧内帧间预测算法的优化媒体编码的标准，极大地推动了多媒体技术的实用化和产业化。按推出时间的先后顺序包括h 2 6 1 2 1 、m p e g l 3 1 、m p e g 2 1 4 - 5 、h 2 6 3 旧、m p e g 4e 7 1 与h 2 6 4 a v c 【8 】等。从h 2 6 1 视频编码建议，到h 2 6 3 、m p e g 1 2 4 等都有一个共同的不断追求的目标，即在尽可能低的码率下获得尽可能好的图像质量。而且，随着市场对图像传输需求的增加，如何适应不同信道传输特性的问题也日益显现出来。这就是 i s o i e c 和删t 两大组织联手制定新标准h 2 6 4 所要解决的问题。 h 2 6 1 h 2 6 1 的全称是“v i d e oc o d e 圮f o ra u d i ov i s u a ls e r v i c e sa tp * 6 4 k b i t s , 主要应用于i s d n 网上的视频会议系统，公布于1 9 9 0 年，是第一个采用现代编码算法的通用视频编码标准，其后许多标准的形成都受到了h 2 6 1 的很大影响。h 2 6 1 又称为 p * 6 4 k b i t s s 标准，是指它的应用主要针对6 4 k 整数倍的信道，p 取值在1 3 0 之间。在技术上，h 2 6 1 采用了基于块匹配的运动补偿方法，只支持整像素精度的运动补偿和单向的单帧参考，即参考帧只能使用前一帧图像。h 2 6 1 使用8 x 8 d c t 变换对原始图像或者预测残差进行变换。 h 2 6 1 只规定了解码的语法和程序，而对于编码中的许多关键问题没有做详细的规定，例如码率控制以及如何进行运动估计等等。这样做既保证了不同生产厂家的设备编码出来的码流完全兼容，同时也给各厂家发挥。 m p e g - 1 m p e g - 1 的全称是“c o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i o - - f o rd i g i t a l s t o r a g em e d i aa tu pt oa b o u t1 5 m b i t s ”，主要是为了视频存储媒体( 如v c d ) 而制定的。相对于h 2 6 1 ，m p e g 1 中加入了两个比较重要的新特性：双向运动补偿技术以及1 2 像素精度的运动补偿。双向运动补偿允许将前帧和后帧均作为参考帧，因此，在m p e g - 1 中有三种类型的帧：i 帧( 帧内编码帧) 、p 帧( 普通帧间编码帧) 、b 帧( 双向帧间编码帧) 。采用双向运动补偿可进一步降低输出码流的码率，但是需要对序列图像进行重排序，这在视频通信中是不能允许的。因此这种技术只应用在m p e g 1 、m p e g 2 等面向视频存储媒体的非实时应用中。需要说明的是，视频编码的标准仅仅是m p e g 1 中的一部分，除此之外， m p e g 1 中还包含完整的音频、系统、以及一致性测试的规范。v c d 的广泛流行说明了m p e g 1 的成功。 m p e g 2 m p e g - 2 的全称是“g e n e r i cc o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i o ”。 m p e g 2 的目标是在3 m b p s 3 5 m b p s 的传输速率下，提供高质量的多媒体信号，第一章绪论 5 并提供质量、时间、空间上的可伸缩性。与m p e g 1 相比，m p e g 2 加入了以下两个主要的新技术：对隔行扫描的支持和可伸缩性编码。普通的电视信号采用隔行扫描的方式，一帧分为两场进行扫描。在一帧图像中相邻的行属于不同的场，在景物存在快速垂直运动时，相邻行的相关性降低，会影响编码的效率。为了尽可能提高编码的性能，m p e g - 2 允许以场为单位进行运动补偿和变换编码。可伸缩性，顾名思义，就是根据实际的需要( 如可利用的信道宽度、解码终端的处理能力等) 在编码质量和码流大小之间取得折中。m p e g 2 支持4 种可分级编码模式：数据划分、s n r 分级、空域分级、以及时域分级。 m p e g 2 从编码到传输的体系十分完善，并且支持的码率范围大，应用领域十分广阔，涵盖了卫星广播服务、有线电视、有线广播、数字地面电视、电子影院、家庭影院、互动媒体、远程视频监控等方面。大家所熟悉的d v d 基于的就是 m p e g - 2 标准。可以说，m p e g - 2 是目前最成功的视频编码标准。 h 2 6 3 h 2 6 3 的全称是“v i d e oc o d i n gf o rl o wb i tr a t ec o m m u n i c a t i o n ”，它的目标应用是低码率的视频电话，目标网络是p s t n 、i s d n 、以及无线网络。由于公用电话网( p s t n ) 和无线网络上的传输速率仍然有限，而且误码率较高，因此，r r u - t 后来又提出了h 2 6 3 的改进版本h 2 6 3 + 和h 2 6 3 + + ，以满足高压缩效率和强信道容错能力的应用要求。改进版本新增加的特性以附录选项的形式加入到h 2 6 3 中。 h 2 6 3 系列标准中首次提出的许多概念，例如可变块大小的运动估计、初始运动矢量预测、无限制运动估计、多参考帧运动补偿等都被其后的许多标准采纳。 m p e g 4 m p e g - 4 的全称是“c o d i n go fm o v i n gp i c t u r e sa n da u d i o ”，其目标应用包括因特网多媒体、交互式视频游戏、个人通信、多媒体邮件、网络数据库服务、远程视频监控、无线多媒体等。目前，m p e g - 4 共包含1 0 个部分，依次为系统、视频、音频、一致性测试、参考软件模型、传输多媒体集成框架、m p e g 4 工具软件、基于i p 架构的m p e g - 4 、参考硬件描述、以及高级视频编码( a d v a n c e dv i d e oc o d i n g ，简称a v e ) 。其中 a v c 即为i t u - t 和m p e g 联合制定的h 2 6 4 视频编码标准，也是本文的研究对象，将在下文中进行详细的介绍。 m p e g - 4 一个革命性的贡献是在视频编码中引入了基于对象的思想。m p e g 4 以v o ( v i d e oo b j m ) 的概念来实现基于内容的表示。v o 也可以是场景中某一物体或某一层面，为画面中被分割出来的不同物体。每个v o 由三类信息来描述： 6 h 2 6 4 帧内帧问预测算法的优化运动信息，形状信息，纹理信息。最近，r r u t 的视频编码专家组( v c e g ) 及i s o i e c 的移动图像专家组 ( m p e g ) 又发布适应于低码率传输的新一代视频压缩标准h 2 “怂，c ，它既是 i t u t 的h 2 6 4 ，又是i s o i e c 的m p e g 4 的第1 0 部分。它采用“回归基本”的简洁设计，不用众多的选项，获得比h 2 6 3 + + 好得多的压缩性能；加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理：用目标范围较宽，以满足不同速率、不同解析度以及不同传输( 存储) 场合的需求。可以广泛应用于数字广播，视频会议，宽带电视，网络流媒体，数字影像存储，数字电影等等各个领域。 1 4 本文的主要内容作为最新的视频编码标准，h 2 6 4 的应用前景是非常广阔的。已经有提议用 h 2 6 4 取代原先被业界看好的m p e g - 4 作为下一代数字电视的工业标准。同时，我们也应该看到，和m p e g - 4 迟迟不能得到广泛应用的原因一样，h 2 6 4 也存在着运算量过大的弱点。由于h 2 6 4 a v c 的高复杂度是阻碍其应用的主要问题，对采用快速算法降低运算复杂度的研究也一直是视频编码研究中重点。本文的目标就是从算法上对h 2 6 4 的编码器进行优化，在保持p s n r 和码率变化不大的情况下尽可能的提高编码速度，在帧间预测中就表现在尽可能减少搜索点数，在帧内预测中就表现在尽可能减少预测模式。论文第二章概述h 2 6 4 a v c 最新视频编码标准，介绍其中较新颖的算法特性、性能和h 2 6 4 的视频编码层( v i d e oc o d i n gl a y e r ) 作为论文的基础知识。第三章针对h 2 6 4 a v c 编码中最耗时的运动估计模块整数像素运动矢量搜索方式，提出一种快速整像素搜索算法基于运动矢量相关性的自适应六边形搜索算法第四章针对帧内预测中极其耗时的模式选择部分，提出一种快速的模式选择方法。第五章总结全文，概况了主要的研究成果，并展望今后的研究发展方向。第二章h 2 6 4 a v c 视频编码标准基础 7 第二章h 2 6 4 a v c 视频编码标准基础 2 1h 2 6 4 的体系结构在h 2 6 4 之前的视频编码标准如h 2 6 3 、m p e g 2 和m p e g - 4 等均是以提高压缩比为主要目标，规范标准时并未考虑到传输信道特性。近年来，随着基于m 网络和无线网络的多媒体应用需求不断出现和扩大，h 2 6 3 和m p e g - 4 等标准越来越无法有效的保障视频信息在网络上的传输质量，暴露出了其网络适应性差的先天不足。 h 2 6 4 在设计之初，就充分考虑到了这个问题，在体系上可以分为两层”1 ：规定视频编码算法的视频编码层( v c l , v i d e o c o d i n g l a y e r ) 负责高效的视频内容表示，对视频内容进行有效的描述；规定网络传输规范的网络适配层( n a l , n e t w o r k a b s t r a c t i o nl a y e r ) 负责以网络所要求的恰当的方式对数据进行打包和传送，完成在不同网络上视频数据的打包传输。在v c l 和n a l 之间定义了一个基于分组方式的接口，打包和相应的信令属于n a l 的一部分。这样，高编码效率和网络友好性的任务分别由v c l 和n a l 来完成，如图2 1 所示。 l 槐顿编码层li嗣络抽象层j f 编码器 h2 “视频编码层 i 解码器 v o l 。n a l 饿u 一r 、t 、t t 女n 一一一一土一一+ 一l 一 l 网篓碧毳层 n z “网络抽象层 f 视鬈毳誓层 n a l 编码接口再码接口 1r i 卜。lim p e g - 2 忙一! i rll 撩l 图2 1v c l 层和n a l 层结构图 2 2h 2 6 4 的编解码框架和早期的标准一样，h - 2 6 4 标准并没有明确的定义一个编码器，而是定义了编码后的比特流格式和解码的方式。实际上，不论如何，一个合适的编码器和解码 8 h 2 6 4 帧内帧间预测算法的优化器可能都包含了图2 2 和图2 3 所示的各个功能模块。同时，这些功能模块对于一个合适的编码器来说也是必需的，这样同时也给编码器留有很大的变化余地。这些基本的功能模块( 预测，变换，量化，熵编码) 与原来的标准( m p e g 1 、m p e g 2 、 m p e g 4 、h 2 6 1 、h 2 6 3 ) 在细节上有很大的不同。图2 2h 2 6 4 编码器结构框图图2 3h 2 6 4 解码器结构框图 2 2 1h 2 6 4 编码器编码器仍是变换和预测的混合编码法。如图2 2 中，输入的帧或场e 以宏块为单位被编码器处理。首先，按帧内或帧间预测编码的方法进行处理。如果采用帧间预测编码，其预测值p r e d ( 图中用p 表示) 是由当前片中已编码的参考图像经运动补偿( m c ) 后得出的，其中参考图像用，。表示。为了提高预测精度，从而提高压缩比，实际的参考图像可在过去或未来( 指显示次序上) 已编码解码重建和滤波的帧中进行选择。预测值p r e d 和当前块相减后，产生一个残差块d 。，经块变换、量化后产生一组量化后的变换系数x ，再经熵编码，与解码所需的一些边信息( 如预测模式量化参数、运动矢量等) 一起组成一个压缩后的码流，经n a l ( 网络自适应层) 供传输和存储用。正如上述，为了提供进一步预测用的参考图像，编码器必须有重建图像的功第二章h 2 6 4 a v c 视频编码标准基础 9 能。因此必须使残差图像经反量化、反变换后得到的d ：与预测值p 相加，得到u e 。 ( 未经滤波的帧) 。为了去除编码解码环路中产生的噪声，提高参考帧的图像质量，从而提高压缩图像性能，设置了一个环路滤波器，滤波后得输出只即为重建图像，可用作参考图像。 2 2 2h 2 6 4 解码器由图2 2 可知，由编码器的n a l 输出一个压缩后的h 2 6 4 压缩比特流。在图 2 3 中，经熵编码得到量化后的一组变换系数x ，再经反量化、反变换，得到残差 d ：。利用从该比特流中解码出的头信息，解码器就产生一个预测块p l i e d ，它和编码器中的原始p l i e d 是相同的。当该解码器产生的p r e d 与残差d j 相加后，就产生u f , ，再经滤波以后，最后就得到重建的e 。，这个e 就使最后的解码输出图像。 2 3h 2 6 4 中的关键技术在h 2 6 4 中也同样使用了和许多已有的编码标准相同的功能模块，如帧内预测、帧间预测、变换、熵编码等。但这些功能模块在h 2 6 4 中与其它的标准有很多细节上的不同。h 2 6 4 中还有一个独特的去块滤波器，能够完成提高低码率情况下的视频图像质量的功能。h 2 6 4 的特征是：加大了预测部分的比重，通过改善预测误差而提高编码效率。 h 2 6 4 标准区别于其他标准的主要技术有： 1 采用4 x 4 像素块的整数变换。 2 运动补偿块大小采用可变形式，可从1 6 1 6 ，1 6 x 8 ，8 x 1 6 ，8 x 8 ，8 x 4 ，4 x 8 ， 4 x 4 中选择。 3 运动矢量的精度目前可达1 4 、1 8 像素。 4 采用多参考帧进行帧间预测。 5 为消除块效应，采用基于4 x 4 块边界的去块滤波器。 6 采用c a v l c 编码或者基于内容的。姐a c 编码算法。下面就分别介绍h 2 6 4 中的各个关键技术。 2 3 1 帧内预测与以前的标准不同的是，h 2 6 4 在编码i 帧时，采用了帧内预测，然后对预测残差进行编码。这样就充分利用了空间相关性，提高了编码效率。对i 帧的编码是通过利用空间相关性而非时间相关性实现的。以前的标准只利用了一个宏块内部 1 0 h 2 6 4 帧内帧间预测算法的优化的相关性，而忽视了宏块之间的相关性，所以一般编码后的数据量较大。为了能进一步利用空间相关性，h 2 6 4 引入了帧内预测以提高压缩效率。简单地说，帧内预测编码就是用周围邻近的像素值来预测当前的像素值，然后对预测误差进行编码。这种预测是基于块的，对于亮度分量( 1 u m a ) ，块的大小可以在1 6 x 1 6 和4 x 4 之间选择，1 6 x 1 6 块有4 种预测模式，4 x 4 块有9 种预测模式；对于色度分量 ( c h r o m a ) ，预测是对整个8 x 8 块进行的，有4 种预测模式。除了d c 预测外，其他每种预测模式对应不同方向上的预测。 4 x 4 亮度预测模式 4 x 4 子块的预测( 见图2 4 ) ，1 6 个点a - p 组成了预测块p 。当左边和上边的采样点a _ m 已经重建好后，它们就能作为预测的参考子块。有9 种预测模式，分别为如图，8 个方向上的预测模式和d c 直流预测模式： fgh 图2 4 4 x 4 亮度预测 1 6 x 1 6 亮度预测模式 1 6 x 1 6 宏块的预测分为4 种方法如图2 5 ：( 1 ) 垂直预测：宏块上方各子块采样值被用作宏块对应一整列的预测值。( 2 ) 水平预测：宏块左边各子块采样值被用作宏块对应一整行的预测值。( 3 ) 均值预测：宏块上方与左边各子块采样值的均值被用作宏块预测值。( 4 ) 平面预测：宏块预测值右上方和左边各子块采样值按左下到右上的方向插值得到。图2 5 帧内亮度1 6 ： 8 x 8 色度预测模式由于采用4 ：2 ：0 采样，色度的分辨率只有亮度的一半，所以色度以8 x 8 为单位预测，也有4 种预测模式，但它的预测模式的顺序与1 6 x 1 6 有些不同，分别是：m o d e 0 直流分量d c 、m o d e l 水平、m o d e 2 垂直、m o d e 3 平面。第二章h 2 6 4 a v c 视频编码标准基础 1 1 2 3 2 帧间预测 h 2 6 4 的帧问编码的特点：仍然是基于动态估计和补偿，以消除时域相关性，是压缩效率的重要来源。与以往的标准不同的是，h 2 6 4 支持7 种不同尺寸和形状的宏块( 1 6 x 1 6 ) 和子宏块( 8 x 8 ) 分割，如图2 6 分别为：1 6 x 1 6 ，1 6 x 8 ，8 x 1 6 ， 8 x 8 ，8 x 4 ，4 x 8 ，4 x 4 ，这种多模式的灵活、细微的宏块划分，更切合图像中的实际运动物体的形状。于是，在每个宏块中可包含有1 、2 、4 、8 或1 6 个运动矢量。口日田田口日田田图2 6 宏块和子宏块分割 h 2 6 4 通过r d o ( r a t ed i s t o r t i o no p t i m i z a t i o n ，率失真优化) 来选择不同的块尺寸。基于r d 最佳的方法编码效果优于传统的运动估计方法，传统的只注意使运动补偿预测误差最小化，而r d 最佳化方法还考虑对产生的m v 进行编码所需的码率。h 2 6 4 中运动向量的位移精度对于亮度分量是1 4 像素，对于色度分量是 1 8 像素。1 2 像素样本使用6 抽头滤波器( 1 ，5 ，2 0 ，2 0 ，5 ，1 ) 从整像素样本中得到，用线性插值获得1 4 像素样本，用8 抽头滤波器实现l 8 像素精度。 1 4 像素精度对于1 2 像素精度条件下的编码效率的提高还是很明显的。但1 8 像素精度相对于1 4 像素精度的编码效率除了在高码率的情况下并没有明显的提高，而且1 8 像素的内插公式更为复杂，质量上带来的提高有限，实际应用性不强。因此，在h 2 6 4 的实际应用中一般只采纳1 4 像素精度。帧间预测可以基于单帧或多帧模式，这不仅使预测的精度得以提高，压缩效率上升，而且也增强了抗误码干扰的能力，当然其复杂度也增加了许多。在 h 2 6 4 a v c 标准中还使用了h 2 6 3 标准中曾使用过的多帧预测”的方法，主要思想是增加运动矢量中时间轴的估计参考帧数。在宏块的级别上，允许选择一个或几个前面视频帧作为参考帧。h 2 6 4 支持多参考帧预测( m u l t i p l er e f e r e n c e f r a m e s ) ，即可以有多于一个在当前帧之前解码的帧作为参考帧，产生对当前帧的预测( m o t i o n c o m p e n s a t e dp r e d i c t i o n ) ，在大多数情况下会明显改善预测增益。这适用于视频序列中含有周期性运动的情况。采用这一技术，可以改善运动估计 ( m e ) 的性能，提高h 2 6 4 解码器的错误恢复能力，但同时也增加了缓存的容量以及编解码器的复杂性。 h 2 6 4 帧内帧间预测算法的优化 2 3 3 变换与量化4 3 1 图像变换编码的基本概念是将空间域里描述的图像，经过某种变换在变换域进行描述，达到改变能量分布的目的，使图像能量在空间域的分散分布变为在变换域的能量的相对集中分布，这样有利于进一步采用其他的处理方式，如z i g z a g 扫描、自适应量化、变长编码等，从而获得对图像信息量的有效压缩。常见的变换编码有d f t ，d c t ，d w t ( 离散小波变换) 。目前绝大多数视频编码标准采用的都是基于变换的混合编码算法。变换将在空间域内以像素值形式表示的图像信息变换到变换域中，以变换系数的形式加以表示。显然，如果变换选择得当的话，所得的变换系数之间的相关性要明显小于原像素值之间的相关性，从而达到去除图像冗余度的目的。变换后再根据人眼的视觉特性，即人眼对高频信息不如低频信息敏感的特点，对不同的变换系数进行不同步长的量化，便可以进一步实现有效的数据压缩。h 2 6 4 相比于以前的视频编码标准的一个重要区别就是用4 x 4 整数变换算法取代了传统的d c t 变换编码算法。在最终通过的h 2 6 4 建议中，j v t 对 h 2 6 4 所使用的整数变换算法又做了进一步的改进，使得整数变换和量化可以通过 1 6 位算术运算完成，且不使用乘法运算。能够在不影响编码性能的前提下，有效地降低计算复杂度，也更利于硬件实现。离散余弦变换( d c t ) 由于d c t 是仅次于k - l 变换的准最优正交变换，可以将图像的大部分能量集中到直流系数中；同时又具有有效的快速算法，易于进行硬件实现。因此除了 j p e g 2 0 0 0 中采用d w t 之外，d c t 变换成为大多数图像编码标准的首选变换算法。 d c t 其实质是通过线性变换x = i - i x ，将一个n 维向量x 变换为变换系数向量 x 。d c t 的变换核h 第k 行第n 列的元素如式2 1 定义为： h ( t , n ) 。c k 、犀c o s 哗式( 2 - 1 ) 其中k = 0 1 ，n 一1 ，c o - - - - 2 ，g = 1 。由于i ) c r 是线性正交变换，因此 d c t 完全可逆，且逆矩阵就是其转置矩阵。图像编码中一般将图像分为相互独立的子块，以子块为单位做二维i ) c r 。二维n x n 点d c t 公式为：盹v 卜万2c o ) 薹n - i 荟n - i 触_ ) ，) c o s 鼍导巫c o s 芝产式( 2 - 2 ) 其中x ，y 是空间坐标，毛y = o 1 ，n 1 ，u ，v 是d c t 空间坐标，u ， v - - - 0 1 ，n - 1 。从式( 2 1 ) 可以看出，d c t 变换核中的元素h ( k ，n ) 是无理数，这意味着在做d c t 变换时需要进行浮点运算。对于向量x 做d c t 变换及反变换后，并不能够保证对于所有的x ( n ) ，反变换后的结果u ( n ) 都能满足u ( n ) - - - - x ( n ) 。因第二章h 2 6 4 a v c 视频编码标准基础 1 3 此利用有限精度的浮点d c r 实现变换编码只能是有损的编码。这在一些特定的场合是不允许的，例如医学图像、遥感成像等。另外，在硬件实现中不同的处理器对于浮点数和取整的定义不同也会造成结果偏差。d c t 的运算量较大，尤其是实时视频和多媒体业务的应用中，会对系统的整体性能和实时性带来较大的影响。整数变换由式( 2 - 2 ) 根据余弦函数的周期性，可以得出4 x 4 的d c t 变换矩阵： y ；a x t 7 ； 4口 bc 口一口 c 6 口口 c 6 - - g4 b 吖【x 】 nb 血c 6 一c 4 - b 4c 一4 6 46 口一c 其中，a 三，6 压c o s c 争，c - 压c o s c 争这个矩阵乘法可以被因式分解成如下形式： y - g 秽) e 一 ! 皇李主卜i 妾三式( 2 - 4 ) 这里a ，c 7 是一个二维变换核，e 尺度因子矩阵，而。表示c x c 7 中的每个元素与e 对应位置的尺度因子相乘( 尺度乘法而不是矩阵乘法) 。常数a 和b 和上面的样，而d = c b 。为了简化变换，将d 简化为0 5 。为了保持变换的正交性，b 做相应修改，所以： a 一扣雇，扣三矩阵c 中第二行与第四行以及矩阵c 7 的第二列和第四列与因子2 相乘，尺度矩阵e 用尺度反变换进行补偿，避免在c x c 7 核心运算中出现非整数的乘法，使得整数变换引入精度的损失，最后，正变换如式2 5 ： r - ( c a d ，) e f ；：1 ，1 三习z f 2 - 三三：乏- 1 - ：1 1 1 1b - - 1 ：三式( 2 5 ) 这一变换与d c t 变换近似，但由于因子d 和b 的变化，运算结果存在一定的差异。反变换的式子在h 2 6 4 中明确的进行了定义，如下所示：惦舻醇鲈矿曲矿曲屿护喃轳睹胁瞄p o 、l_llll_i_7 2 4 2 4 剃功别聊 2 2矿别矿别 2 4 2 4新聊别砑 2 2 憎h 吲 1 4 h 2 “帧内帧间预测算法的优化工- 一o 煺晖k 1 11 1 1 2 1j 2 1 - 1 1 1 2 - 1 - 1 - 1 1 1j 2 式( 2 6 ) 此时，首先用矩阵e 中的相应权重系数对w 中的每个系数进行预尺度变换。而c l 与c r i 中的因子+ 1 2 ，1 2 可以用右移操作实现而不明显损失精度，因为w 已经进行了尺度变换。正反变换是正交的，如式2 7 ： t 1 ( t ( x ) ) 。x式( 2 7 ) 基于4 x 4 子块的整数变换算法。由于是整数到整数的变换，因而不存在反变换的误匹配问题；同时整数运算速度比浮点运算有大幅度的提高，变换的核心部分可以只使用加法和移位操作实现；变换的一部分比例乘法运算可以和量化器结合到一起，减少了乘法计算的数量。严格的说，d c t 本身并不能进行码率压缩，因为“个样值仍然得到6 4 个系数。只是在经过量化后，特别是按人眼的生理特征对低频分量和高频分量设置不同的量化，会使大多数高频分量的系数变为零。一般说来，人眼对低频分量比较敏感，而对高频分量不太敏感。因此对低频分量采用较细的量化，而对高频分量采用较粗的量化，根据量化步长对数据进行截取，从而降低码率。h 2 6 4 使用一个尺度量化器进行标量量化。对变换残差系数的量化使用了5 2 级步长的量化器，而 h 2 6 3 标准只有3 1 级。量化步长以1 2 5 递增，量化步长范围的扩大使得编码器能够更灵活和精确的进行控制。基本的正向量化的操作是：毛一r o u n d q ) 式( 2 8 ) k 是整数变换的一个系数。q s t e p 是量化步长尺寸，乙是量化后的一个系数。 h 2 6 4 支持多达5 2 个值的q 名值，用量化系数鳞进行索引。q p 每增加6 ，q 岛就增加一倍。量化步长的宽广范围使得编码器能够灵活准确的控制比特率和质量间的权衡。加速尺度参数n ：，a b 2 和b 2 4 被结合到正向量化器中，首先，输入块x 经过变换，给出一个未经尺度化的参数块w 。c x c 7 。然后，对每个系数在进行量化和尺度化： z , j = r o u n a ( w i l j x p f q ) 式( 2 9 ) 1 4 1 1 2 l 1 2 4 1 1 1 2 4 d 1 1 1 1 2 护协酽矿西矿曲曲舻皓舻瞄胁瞄p 陟第二章h 2 6 4 a v c 视频编码标准基础根据位置( i ，j ) ，p f 是a 2 ，a b 2 和b 2 4 三者之一( 见式2 - 6 ) 。根据式2 9 可以写成如下：磊一r o u n d ( w i jx m f 2 帅) 式( 2 - 1 0 ) 其中等一云p f ，并且： q b i t s = 1 5 + f l o o r ( q p 6 )式( 2 - 1 1 ) 在整数运算中，上式可以按如下方式实现： i z 小- 0 | x 胛+ ，) ，驴西式( 2 - 1 2 ) s i g n ( 乞) = s i g n ( ) 在j m 中，对帧内块，f 是2 q b i t s 3 ，对帧间块，f 是2 q b i t s 6 。 2 3 4 熵编码如果是s l i c e 层预测残差，h 2 6 4 有两种熵编码的方式：基于上下文的自适应变长码( c o n t e x t b a s e d a d a p t i v ev a r i a b l el e n g t hc o d i n g ，c a v l c ) 和基于上下文的自适应二进制算术编码( c o n t e x t - b a s e d a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ，c a b a c ) ；如果不是预测残差，h 2 6 4 采用e x p g o l o m b 码或c a b a c 编码，视编码器的设置而定。 c a v l c f “1 c a v l c 的基本思想就是对出现频率大的符号使用较短的码字，而出现频率小的符号采用较长的码字。这样可以使得平均码长最小。在c a v l c 中，h 2 6 4 采用若干码表，不同的码表对应不同的概率模型。编码器能够根据上下文，如

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（交通信息工程及控制专业论文）H264帧内帧间预测算法的优化.pdf

文档简介

温馨提示

最新文档

评论

（交通信息工程及控制专业论文）H264帧内帧间预测算法的优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档