（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：64 大小：2.24MB 积分：0 举报 版权申诉

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf_第2页

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf_第3页

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf_第4页

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf_第5页

已阅读5页，还剩59页未读，继续免费阅读

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 h ，2 6 4 a v c 是目前最新的视频编码标准，与以往的视频编码标准相比h 2 6 4 a v c 具有更高的压缩效率平u 网络适应性。这取决于它引入了一系列先进的编码技术，来充分挖掘视频序列的相关性，尽可能减小视频信号的空间和时间冗余。这些新的编码方法极大地增加了宏块的可选编码参数集( 即宏块的编码模式) 。为了对每个宏块都选择最佳的编码模式，h ，2 6 4 a v c 采用了基于率失真优化的模式选择算法，它通过计算所有可能编码模式的率失真代价，从中选择最小者对应的模式作为宏块的最佳编码模式。由于率失真代价函数的计算非常复杂，涉及运动估计，幸偿、d c t 变换，反变换、量化反量化、熵编码等一系列耗时操作，急剧增加了编码器的计算复杂度，严重影响了h 2 6 4 a v c 的广泛使用。针对这样的问题，本文做了以下几个方面的研究： ( 1 ) 研究了h 2 6 4 a v c 视频编码器的原理和框架，并详细介绍了一些关键编码技术包括帧内预测编码、帧间预测编码、整数d c t 变换和量化、去块效应滤波、熵编码等。然后重点针对编码模式选择中的率失真优化问题介绍了信息论中的率失真编码理论，讨论了率失真理论在视频编码算法中的应用，结合h 2 6 4 a v c 视频编码标准，研究了基于率失真优化的运动估计和基于率失真优化的编码模式选择算法等问题。( 2 ) 提出了一种快速帧内编码模式选择算法。它首先利用宏块的纹理特征来确定帧内预测块的大小，避免同时对两釉块尺寸都做预测；然后针对4 x 4 块的帧内预测，通过计算它的可能纹理方向，将候选预测方向限制在一个更小的范围内，从而避免对该范围以外预测方向率失真代价的计算，以减少编码器的计算复杂度。编码测试表明，该算法对i 帧编码，平均可以减少4 2 的编码时间，同时保持与全搜索算法几乎相同的编码性能，峰值信噪比p s n r 仅下降 o 0 2 d b ，比特率的增加小于2 。( 3 ) 提出了一种快速帧间编码模式选择算法。通过研究最佳帧间编码模式分布，提出了三种模式选择早期终止策略，分别对s k i p ，p 1 6 x 1 6 ，p 1 6 x $ 和p 8 x 1 6 这三类模式成为最佳编码模式进行判断，适当地结束编码模式选择过程，避免了对后面不可能模式率失真代价的计算，从而减少了帧间编码的计算复杂度。实验测试表明，该算法可以减少h 2 6 4 a v c 编码器 5 0 7 0 的编码时间，同时保持与全搜索算法基本一致的编码性能，蜂值信噪比p s n k 平均下降 0 1 7 d b 左右，编码比特率平均增加2 4 2 以上给出的快速编码模式选择算法，对于各种类型的视频序列在不同的比特率限制下，均可以有效降低编码器的复杂度，并保证与原来算法基本相同的编码效果，对h 2 6 4 a v c 视频编码标准的应用具有重要意义。关键字：视频编码，h 2 6 4 a v c 。率失真优化，帧内预测编码，帧间预测编码，快速编码模式选择，编码器优化。东南大学硕士学位论文 a b s t r a c t h 2 6 4 a v c s t a n d a r d i so n e o f t h e m o s t p o p u l a r v i d e o f o r m a t s f o r t h e n e x t g e n e r a t i o n v i d e oc o d i n g i t p r o v i d e sab e t t e rp e r f o r m a n c ei nc o m p r e s s i o nc a p a b i l i t ya n dv i s u a lq u a l i t yc o m p a r e dt oa n ye x i s t i n gv i d e o c o d i n gs t a n d a r d s t h e s es a t i s f a c t o r yp e r f o r m a n c e sm a i n l yb e n e f i tf r o ms o m en e w m e t h o d sp r o p o u n d e db y h 2 6 4 a v c mn e wc o d i n gm e t h o d se x t e n dd r a m a t i c a l t yt h es e to fc o d i n gp a r a m e t e r so f 船( c o d i n g m o d eo f m b ) t os e l e c tt h eb e s tc o d i n gm o d e ，r a t e - d i s t o r t i o no p t i m i z a t i o n ( r d o ) i se m p l o y e ds ot h a tf o r e a c h 旧a l lt h em bc o d i n gm o d e sa r et r i e da n dt h eo n el e a d st ot h el e a s tr dc o s ti ss e l e c t e d a st h er d c o s ti so b t a i n e do n l ya f t e ras e q u e n c eo fo p e r a t i o n ss u c ha sm o t i o ne s t i m a t i o n ，m o t i o nc o m p e n s a t i o n , i n t e g e rd c tt r a n s f o r m ，q u a n t i z a t i o n , i n v e r s eq u a n t i z a f i o n , i n v e r s ei n t e g e rt r a n s f o r ma n de n t r o p yc o d i n g , i t r e s u l t si ne x t r e m e l yh i 曲c o m p u t a t i o n a lc e m p l e x i t yi nt h ee n e o d e r t h e r e f o r e , a l g o r i t h m st or e d u c et h e c o m p u t a t i o n a lc o m p l e x i t yo fh 2 6 4 a v cw i t h o u tc o m p r o m i s i n gt h ec o d i n ge f f i c i e n c ya r ei n d i s p e n s a b l ef o r r e a l t i m ei m p l e m e n t a t i o no f h 2 6 4 a v c ( 1 ) s t u d i e st h ep r i n c i p l ea n df r a m e w o r ko fh 2 6 4 a v cc o d a c , i n t r o d u c e si nd e t a i ls o m ek e yc o d i n g t e c h n i q u e si n c l u d i n gi n t r a - f r a m ec o d i n g , i n t e r - f l a m ec o d i n g , i n t e g e rd c tt r a n s f o r m , i n - l o o pd e - b l o c k i n g f i l t e ra n de n t r o p yc o d i n g a n dt h e n , d i s c u s s e st h er a t e - d i s t o r t i o nt h e o r ya n di t sa p p l i c a t i o ni nv i d e oc o 曲培 ( 2 ) p r o p o s e saf a s ti n t r am o d ed e c i s i o na l g o r i t h m f i r s t , t h et e x t u r ef e a t u r eo f1 6 x 1 6b l o c ki sc o m p u t e d t o d e c i d ew h e t h e rt h ei n t r a4 x 4m o d eo ri n t r a1 6 x 1 6m o d ew i l lb eu s e d s e c o n d , as u b s e to fn i n ea v a i l a b l e m o d e sw h i c hc o n t a i n ss o m ep r o b a b l ep r e d i c t i o nm o d ef o rh i 饥a4 x 4i ss e l e c t e da c c o r d i i l gt ot h em e a n p r e d i c t i o na r r o r ( m p e ) e x p e r i m e n t a lr e s u l t ss h o wt h a t , f o ri - f l a m ec o d i n g , t h ep r o p o s e da l g o r i t h mc a l l e f f i c i e n t l yr e d u c et h ec o m p u t a t i o n a lc o s tb y4 2 w i t hs i m i l a rp s n r a n dl e s st h a n2 b i tr a t ei n c r e a s i n g c o m p a r e dw i t hh2 6 4 a v cr e f e r e n c es o r w a r ea l g o r i t h m ( 3 ) p r o p o s e saf a s ti n t e rm o d ed e c i s i o na l g o r i t h m a c c o r d i n gt ot h ed i s t r i b u t i o no fb e s ti n t e rc o d i n gm o d e s ，g i v e st h r e ee a r l y - t e r m i n a t e ds t r a t e g i e sf o r d e c i d i n gw h e t h e ro n eo f t h es k i p , p 1 6 x 1 6 p 1 6 x 8o rp 8 1 6c a n h es e l e c t e aa st h e b e s ti n t e rc o d i n gm o d e i fm ec o n d i t i o n sc a nb es a 6 s f i e d , t h ec o m p u t a t i o no fl mc o s to fr e s tm o d ec a nb es a v e d e x p e r i m e n t a l r e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h mc a l ls a v e5 0 * * - 7 0 t i m ec o m p a r e dw i t hf u l l - s e a r c h i n ga l g o r i t h m i nh 2 6 4 a v c m e a n w h i l et h ed e c r e a s i n go fp s n ri sa b o u to 1 7 d ba n dt h ei n c r e a s i n go f b i t - r a t ei sa b o u t 2 4 2 f o ra l lk i n d so fv i d e os e q u e n c e sa n db i t - r a t e s ，t h et w of a s tm o d ed e c i s i o na l g o r i t h m sc a l ld e c r e a s e e f f i c i e n t l yt h ec o m p u t a t i o n a lc o m p l e x i t yo fh 2 6 4 a v ce n e o d e r 仙i sa c h i e v e dw i t h o u ta n ys i g n i f i c a n t d e g r a d a t i o ni np i c t u r eq n a l i t ya n dc o m p r e s s i o n r a t i o k e y w o r d s ：v i d e oc o d i n g , h 2 6 4 a v c ，r a t e - d i s t o r t i o no p t i m i z a t i o n , i n t r ap r e d i c t i o n , i n t t p r e d i c t i o n , f a s tm o d ed e c i s i o n , e o c o d e ro p t i m i z a t i o n 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：日期：东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括刊登) 论文的全部或部分内容论文的公布( 包括刊登) 授权东南大学研究生院办理。研究生签名：导师签名：日期：第1 章绪论 1 1 视频编码算法概述第1 章绪论视频编码算法在很大程度上是由视频序列建模所采用的信源模型确定的，视频编码器寻求用它的信源模型描述视频序列的内容。信源模型可以做出图像序列的像素之问在时间和空间上相关性的假设，它也可以考虑物体的形状、运动和照度的影响。在编码器中，首先用信源模式参数描述数字化的视频序列。如果我们使用像素统计独立的信源模型，那么这种信源模型的参数就是每个像素的亮度和色度幅度；如果我们使用把一个场景描述成几个物体的模型，那么参数就是各个物体的形状、纹理和运动。接下来信源模型的参数被量化为有限的符合集。量化参数取决于比特率与失真度之间所期望的折中。最后用无损编码技术把量化参数映射成二进制码字，这种技术迸一步利用量化参数的统计特性，产生的比特流在通信信道上传输。解码器反向进行编码器的二进制编码和量化过程，重新得到信源模型的量化参数，解码器的图像合成算法用信源模型的量化参数计算解码的视频帧。视频编解码系统的原理框图如图1 1 所示。按照编码器采用的信源模型的不同，视频编码方案可以分为基于波形的编码和基于内容的编码两类”】，原始视频输入解码视频图1 i 视频编码算法框图 1 ) 基于波形的编码。基于波形的编码方法试图准确表示每个像素的颜色值，而并不考虑一组像素可以表示一个物体的事实。如果将像素假设为统计上独立，那么得到的信源模型是最简单的，其对应的编码技术为脉冲编码调制( p c m ) 。视频编码通常不会采用这种p c m 表示，因为与其它信源模型相比其效率最低。在大多数图像中，相邻像素具有较强的相关性，因此可利用交换来进行编码，如k l t 变换、离散余弦变换( d c t ) 或小波变换。变换的目的是去除原始抽样点问的相关性，把原始信号的能量集中在几个系数上，然后对这些变换系数进行量化和编码。另一种利用相邻样点问相关性进行编码的方法是预测编码，这种方法是利用已经编码的样点来预测待编码的样点，然后对预测误差进行量化和编码。预测误差与原始信号相比具有较小的相关性和较低的能量。变换编码和预测编码都可看作是矢量量化的种特殊情况。矢量量化一次量化一组样点块( 一个矢量) ，从本质上说，它是寻找出现在信号中的典型块模式，并用典型模式之一来近似任何一个块。现有的视频编码标准h 2 6 1 ，h 2 6 3 ，h 2 6 4 a v c ，m p e g i 。m p e g - 2 和m p e g - 4 等都采用了基于块的混合编码方法。它综合了预测编码和变换编码两种方法。将每幅图像分成固定大小的块，用第k - 1 帧的一个块来估计第k 帧中已移位的相同尺寸的块，这样产生的图像叫做预测图像。编码器将所有块的二维运动矢量传送到解码器，以便解码器能够计算出同样的预测图像编码器从原始图像中减去此预测图像，就得到预测误差图像如果预测误差超过了某个阈值，就用变换编码将预测 l 东南大学硕士学位论文误差变换后传送给解码器。解码器将预测误差与预测图像相加，从而合成解码图像。 2 ) 基于内容的编码上述基于块的混合编码实际上是用固定大小的方块来近似场景中物体的形状，因此在物体边界处的块会产生较高预测误差。这些边界块往往包含具有不同运动的两种物体，因此用一个运动矢量并不能说明两个不同的运动。而基于内容的编码能够将视频帧分成对应于不同物体的区域，分别编码这些物体。对于每个物体，除了运动和纹理信息外，还必须传送其形状信息。例如，基于物体的分析与合成的内容编码通过模型来描述视频场景的每个运动物体。为了描述物体的形状，首先要采用视频对象分割算法分割出场景中的物体，此外还要估计每个物体的运动和纹理参数。在最简单的情况下，以二维轮廓描述物体形状，以运动矢量场描述它的运动，而以颜色波形描述它的纹理。也可以采用三维线框来描述物体，编码器用第k - t 帧中物体的形状和颜色以及形状和运动的更新参数来描述第k 帧中的物体。解码器用当前运动和形状参数以及前一帧的颜色参数合成物体。而仅对那些图像合成失败的图像区域才传送颜色信息。如果已知视频序列中的物体种类，则可采用基于知识的编码。这种编码使用特别设计的线框来描述已识别出的物体类型，现已开发了几种用预定义的线框来编码人头的方法。因为预定义线框可以与物体的形状相适应，因此可以提高编码效率。有时可把这种技术称为基于模型的编码。当己知物体的可能类型和行为时，还可采用语义编码。例如，人脸的“行为”指的是与特殊表情相关的一系列面部特征点的时间轨迹。其可能行为包括典型面部表情，诸如高兴、悲伤、生气等在这种情况下，将描述物体行为的参数传送给解码器即可。这种编码方法能够达到非常高的编码效率，因为物体( 如脸) 可能的行为数目非常小，所以说明行为所需的比特数比用传统的运动和颜色参数描述实际行动所需的比特数少得多。 1 2 视频编码标准的发展数字视频技术广泛应用于通信、计算机，广播电视等领域，带来了会议电视、可视电话及数字电视、媒体存储等一系列应用，促使了许多视频编码标准的产生。删玎与i s o i e c 是制定视频编码标准的两大组织，它们分别制订了h 2 6 x 系列和m p e g - x 系列视频编码国际标准，下面简要介绍这些编码标准的发展1 2 j 。 h 2 6 1 是最早出现的视频编码标准，是i t u t 的前身c c i t t 针对可视电话、会议电视和窄带i s d n 等要求实时编解码和低延时应用提出的一个编码标准。它的输出码率是p 6 4 k b i f f s 。其中p 为0 3 l 的整数。h 2 6 1 采用的是帧问预测和二维d c t 变换的混合编码框架，熵编码采用的是h t t f f m a a 编码算法。 m p e g 1 是面向数字存储的运动图像及其伴音的编码标准，它的目标码率是1 2 m b i f f s ，对于c i f 格式的图像可以达到实时编解码，它是为只读c d - r o m 光盘存储和播放视频所制定。类似于h 2 6 1 标准，m p e g 1 也采用运动补偿和二维d c t 变换，量化后的d c t 系数进行变长编码，同时对每个数据块的直流分量d c 进行预测差分编码。在m p e g 1 标准中，图像预测类型可以分为四种情况；帧内预测、前向帧间预测、双向帧间预测和直接预测。 m p e g 2 是主要针对数字视频广播d v b ，高清晰度电视h d t v 和数字光盘d v d 等4 9 m b i t s 运动图像的编码标准。m p e g 2 作为一个得到广泛应用的国际标准，成功之处在于提出了通用的压缩编码方法，定义了不同的“档次”( p r o f i l e ) 和“等级”( l e v e l ) ，可满足不同图像分辨率及相应存储成本和处理速度的需要。m p f _ a 3 - 2 根据不同的档次形成了各个不同的子集，每个“档次”的“等级”则是对编码参数所做出的进一步限制。与h 2 6 1 视频标准相比，m p e g - 2 开始使用半像素精度的运动矢量搜索，引入了“帧”和。场”的编码方法，支持可分级性技术。包括空间可分级性、时间可分级性和信噪比可分级性等。 h 2 6 3 是为低码率视频压缩提供的编码标准，目的是支持码率小于6 4 k b i t s 的应用。在h 2 6 1 建议的基础上，h 2 6 3 进行了重要改进，采用了半像素精度的运动矢量搜索，增加了非限制运动矢 2 第1 章绪论量，提出了基于语法的算术编码、先进预测模式和p b 帧编码等多个高级选项，从而提高编码效率。 h 2 6 3 + 和h 2 6 3 + + 扩充了h 2 6 3 的编码可选项，进一步提高了编码效率。适用范围更大，同时支持 s q c i f 等多种图像格式。h 2 6 3 在提高编码效率的同时，增强了抗误码的差错隐藏性能，将信道传输性能问题在信源编码中加以综合考虑。 m p e ( 3 4 视频部分( m p e g - 4 v t s u a l i s o i e c1 4 4 9 6 - 2 ) 是m p e g 组织颁布的视频压缩标准，它的内容庞杂功能强大，可以处理各种各样的视频数据包括：矩形视频对象、任意形状的视频对象、 2 d 和3 d 网格对象、人脸和身体动画等。它的应用领域有：传统的视频应用( 如数字电视，视频会议和视频存储等) ，基于对象的视频应用，基于2 d 和3 d 网格对象渲染的计算机图形和人脸( 身体) 动画，针对i n t c m e t 和无线信道的流媒体应用，演播室品质的视频编辑和制作等。尽管m p e g - 4 试图覆盖许多方面的应用，但由于“基于对象的编码”尚有技术障碍，以及在技术专利保护问题上迟迟难以找到有效的收费形式，因此该标准目前仍然没有得到普遍应用。 h 2 6 4 a v c 是由i t u - t 和i s o 难虻共同开发的视频编码标准，其早期版本又被称为h - 2 6 l 2 0 0 1 年1 2 月i s o i e cm p e g 和i t u - t v c e g 组成了一个联合工作组j v t ，将h 2 6 l 发展成两个标准化组织的共同标准，即i t u - t 的h 2 6 4 和i s o i e c 的m p e g - 4 p a r t l 0 ( 又叫高级视频编码，a d v a n c e d v i d e o c o d i n g ，a v c ) 。和m p e g - 4 相比h 2 6 4 a v c 的应用范围要窄得多，主要是针对矩形视频帧的高效编码和鲁棒性传输，其目标应用包括双向的视频通信( 如视频会议和视频电话) ，广播质量和高品质的视频编码以及在基于分组交换的网络上进行流式视频传输等，虽然h 2 6 4 a v c 采用了和以前编码标准一样的混合编码框架，但由于它引入了许多先进的编码技术，使编码性能得到了很大提高。目前，h 2 6 4 ，a v c 已经成为视频编码领域最为热门的研究领域之一 1 3 论文的研究背景 h 2 6 4 a v c 是目前最新的视频编码标准，与以往的视频编码标准相比，h 2 6 4 ，a ：、，c 具有更高的压缩效率和网络适应性。在相同的编码质量下，h 2 6 4 a v c 可以比m p e g - 2 节省大约6 4 码率。这种高效的编码性能的取得得益于h 2 6 4 a v c 引入了一系列先进的编码技术在预测技术方面采用了全新的帧内预测方法，可变块尺寸的运动估计，多参考帧以及l ，4 像素精度的运动矢量等，使不同性质的视频内容均能被有效表达；在变换和熵编码技术方面，采用4 x 4 整数变换保证了编毹码过程的完全匹配；采用基于上下文的自适应熵编码方法进一步提商了压缩效率。同时对于大量的编码参数，如预测模式、运动矢量等，h 2 6 4 a v c 采用率失真优化技术选择晟优的编码参数，使每个宏块都尽可能的达到最佳编码效果【4 】。h 2 6 4 a v c 优异的编码性能使得它成为无线视频通信、互联网视频应用以及数字高清电视首选的编码标准，具有广阔的应用前景。目前h 2 6 4 a v c 己被多个重要的应用领域采用，如欧洲的数字视频广播标准d v b ( d i 醇a l v i d e o b r o a d c a s t ) 、面向第三代移动通信的3 g p p 和3 g p p 2 规范等。但是h 2 6 4 a v c 编码效率的取得是以大幅度增加编码复杂度为代价的，其编码复杂度大约是 m p e g - 2 的5 1 0 倍m 。这严重影响了它的广泛实用化，特别是对于无线通信环境，由于移动终端计算能力，内存容量、电池能量以及无线信道的局限性，要求在保证编码效率的条件下尽可能降低编码复杂度。对于其它实时性要求较强的场合，如视频会议，网络视频监控等，现有的算法很难进行实时编码。因此对编码器进行优化处理，研究快速的编码算法对h 2 6 4 a v c 的实用化具有非常重要的意义。导致编码器复杂度大幅度增加的主要因素包括运动估计、预测模式选择等模块，而模式选择过程是增加编码复杂度的一个重要因素。因为h 2 6 4 a v c 为了提高编码效率，采用r d o 技术选择最优模式，而r d o 模式选择过程中代价函数的计算涉及运动估计辟偿( 帧问预测方式) 、变换反变换、量化，反重化、熵编码等环节，是一个非常耗时的过程，使模式选择过程的计算复杂度显著增加。如果采用有效的快速模式选择算法，可以在未改变码流的任何语法结构，与解码器完全兼容的情况下，有效降低编码复杂度，茹且对编码性能影响很小甚至没有影响。鉴于r d o 模式选择的重要性、选择至堕查兰堡圭堂堡堡苎过程的复杂性以及快速算法的有效性，所以研究h 2 6 4 a v c 中的快速模式选择算法具有重要的现实意义和实用价值。 1 4 论文主要研究内容本文主要首先介绍了h 2 6 4 a v c 视频编码标准的基本原理以及它采用的各种新的编码技术；然后结合率失真理论研究了h 2 6 4 a v c 编码器使用的基于率失真优化的编码模式选择问题：接着针对 h 2 6 4 a v c 帧内和帧间编码模式选择计算复杂度过大的问题分别提出了基于纹理特征的快速帧内编码模式选择算法和基于三阶段早期终止策略的快速帧间编码模式选择算法；最后对全文做了总结，并指出了文中算法需要改进的地方和以后进一步研究的思路。论文的结构安排如下：第一章：介绍了视频编码系统的基本概念和两类视频编码方法原理；总结了当前常用视频编码标准的特点和发展过程；然后根据对h 2 6 4 a v c 编码器复杂度的分析，给出了本论文的研究背景和方向；最后介绍了论文主要内容和结构安捧第二章：本章首先简要介绍了h 2 6 4 a v c 的发展过程，总体框架，编码性能及其网络适配层；然后对h 2 6 4 a v c 的视频编码层进行了深入研究，主要内容包括：h 2 6 4 a v c 视频编码层的原理框架，帧内预测技术。帧间预测技术，变换量化，环路去块效应滤波以及熵编码方法等；最后对本章做了总结。第三章：首先介绍了信息论中的率失真理论，然后讨论了率失真理论在视频编码算法中的应用，接着针对h 2 6 4 a v c 视频编码标准，研究了基于率失真优化的运动估计和基于率失真优化的编码模式选择算法等问题，最后对本章做了总结。第四章：本章首先研究了h 2 6 4 a v c 中采用的基于全搜索的帧内编码模式选择算法，给出了它流程，并分析了全搜索算法的计算复杂度；然后提出了一种快速帧内编码模式选择算法，详细介绍了该算法的原理和具体操作步骤，并通过对标准序列的编码测试了该算法的性能，与h 2 6 4 f 艄，c 中的算法进行了对比分析。最后对本章做了总结。第无章：本章首先研究了h 2 6 4 a v c 中的帧间编码模式选择算法，分析了它的计算复杂度，并总结了目前一些快速帧间编码模式选择算法的思路。然后统计了典型视频序列中最佳帧间模式的分布，基于这样的统计结果，提出了一种基于三阶段早期终止策略的快速帧问编码模式选择算法，并通过编码实验测试了该算法的性能，与h 2 6 4 f ：v c 中的算法进行了对比分析。最后对本章做了总结。第六章：对全文的内容进行了总结，并指出了对h 2 6 4 a v c 编码器进一步优化的方向。 4 第2 章h2 6 4 a v c 视频编码算法第2 章h 2 6 4 a v c 视频编码算法 2 1h 2 6 4 a v c 视频编码标准概述 h 2 6 4 a v c 是国际电信联盟标准化组织r f u t 视频编码专家组v c e g ( v i d e oc o d i n ge x p e r t g r o u p ) 和国际标准化组织i s o i e c 运动图像专家组m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 共同开发的视频编码标准，它是目前面向实际应用( 视频会议，数字视频广播，网络流媒体等) 的最新视频编码标准。在1 9 9 8 年1 月份v c f _ 灯开始草案征集，1 9 9 9 年9 月完成了第一个草案( 即h 2 6 l 草案) 。2 0 0 1 年7 月m p e g 为完善m p e g - 4 ，与v c e g 成立了联合视频小组n 吓( j o i n t v i d e og r o u p ) 共同开展了对h 2 6 l 的研究，以制定出一种新的视频编码标准，旨在改善图像质量，并能够覆盖所有低带宽和高带宽应用。2 0 0 2 年6 月的t 第5 次会议通过了新标准的最终审议草案f c d ( f i n a l c o m m i t t e e d r a f t ) ，2 0 0 3 年3 月正式发布。新标准的名称在i t u t 标准序列中编号为h 2 “，在i s o i e c 序列中编号为m p e g 4 1 0a v c ( 或1 4 4 9 6 1 0a v c ) 。表示是m p e g - 4 的第1 0 部分即高级视频编码 a v c ( a d v a n c e dv i d e oc o d i n g ) 部分。由于这个标准是两个国际标准组织合作的结果，所以正式名称一般称为h 2 6 4 a v c 。现在最新的h 2 6 4 a v c 标准是2 0 0 5 年3 月发布的，共包括3 个部分： h 2 6 4 a v c 标准正文，h 2 6 4 a v c 标准一致性验证以及h 2 6 4 a v c 标准参考软件 s l 6 1 1 7 1 。与以前的i t u t 和m p e g 所制定的视频编码标准一样，h 2 6 4 a v c 只对解码器和编码码流做了规范。通过影响和限制比特流和语法，定义视频解码过程的语法单元，所有符合标准的解码器对给定一段编码码流经过解码后都会有相同的输出输出结果。标准的这种范围限制最大可能地提高了使用各自最适合的方式进行性能优化的自由度。图2 1 给出了一个视频编解码系统框架，其中虚线框中的部分正是标准所规范的内容 ! 竺h 竺肃篓季沸：h 2 6 4 a v c 规范范围：一图2 1 视频编解码系统框架 h 2 6 4 a v c 在发展过程中吸收了原有视频压缩编码中的成熟技术，同时也提出了很多新的编码方法，与以往的视频编码标准( 如m p e g - 4 a s p ，h 2 6 3 付等) 相比，h 2 6 4 a v c 具有更高的编码效率。同时h 2 6 4 a v c 还增加了网络适配层n a l ( n e t w o r k a b s u a c t l a y e r ) 的设计，使它具有更好的网络适应能力。可以满足在多样性网络上视频应用的需要 2 1 2h 2 6 4 1 a v c 应用框架 h 2 6 4 a v c 在结构上可以分为视频编码层v c l ( v i d e oc o d i n g l a y e r ) 和网络适配层n a l ，v c l 5 奎堕奎兰堡圭堂垡堡塞层的任务是对视频数据进行高效压缩编码，而n a l 层则对压缩后的数据进行格式化，提供必要的头信息，使得生成的码流能够在各种信道或存储介质上有效地传输或存储图2 2 是一个h 2 6 4 a v c 视频编解码和传输系统的应用框图嘲 h 2 6 4c o d e cs t r u c t u r e v i d e oc o d i n gl a y e r v i d e oc o d i n gl a y e r e n c o d e rd e c o d e r 上士； 0 v c i ，n a li n t e r f a c e n e t w o r ka b s t r a c t i o nn c t w o r i 【a b s t r a c t i o n l a y e re n c o d e rl a y e r d e c o d e r n a le n c 。j e rh l t e r 白c c n a ld e c 。j c rh l t e m i c e i llh ，：。ll m 姆p 。e 觚g - 2 li h s z 枷llm 佃l it r a n s p o r tl a y e r、7 w i r e l e s sn e t w o r k sf i x e di n t e r n e t 图2 2h 2 6 4 a v c 视频编解码和传输系统框图视频编码层对输入的原始视频序列进行编码，产生各种编码元素包括残差编码数据，运动矢量，控制信息等。网络适配层则把这些编码数据封装成为若干网络抽象单元，这些网络抽象单元可以在现有的大部分网络中以包的形式传送。对于解码端，可以认为这些网络抽象单元或者正确无误，或者在网络中丢失，或者存在位错误。一般网络抽象单元头信息中会设有相应标志来指示是否发生位错误，解码器能够识别发生位错误的网络抽象单元并决定是对其进行解码还是丢弃。封装于网络抽象单元中的数据称为原始字节序列载荷r b s p ( r a w b y t e ss e q u e n c e p a y l o a d s ) ，根据r b s p 的不同，网络抽象单元中可以分为不同的类型j 。对n a l 的基本处理过程基本分为两步：首先将v c l 层输出的原始编码数据封装成通用格式即n a l 单元。可以适用于有序字节流方式和i p 包交换方式；然后针对不同的传送网络( 电路交换或包交换) ，将n a l 单元封装成针对不同网络的封装格式。 2 1 。3h 2 6 4 1 a v c 编码性能 h 2 6 4 1 a v c 虽然采用了和以前标准一样的基于块的预测加变换混合编码框架，但是它针对编码框架的各个环节都提出了各种高效算法，包括帧内预测编码，可变块尺寸运动估计，扩展b 图像，多参考帧。l 4 像素精度运动矢量，基于率失真优化的编码模式选择算法环路去块效应滤波，整数 d c t 变换以及高效的熵编码方法( 基于上下文的自适应变长编码c a v l c 和基于上下文的自适应二进制算术编码c a b a c ) 等，这些新的算法都能在某种程度上提升h 2 6 4 a v c 的编码性能纠。它们对性能的提升具体表现在：扩展b 图像：b 图像是h ，2 6 4 a v c 中非常重要的编码工具，与无b 图像的情况相比，增加一个 b 图像可以获得1 0 2 4 的编码增益，增加两个b 图像可以获得1 4 鼾3 4 的编码增益。b 图像在提高编码增益的同时，会使p s n r 有轻微的下降，但由于b 图像具有时域掩盖特性和噪声平均特性，这些p s n r 的差异在视觉上是不可感知的。基于率失真优化的模式选择：由于编码模式过多使编码模式选择成为h 2 6 4 a v c 中非常重要的问题，与不使用率失真优化的模式选择相比，r d o 优化可以获得1 0 2 2 的增益 6 第2 章h 2 6 4 a v c 视频编码算法 c a b a c ：依赖于编码视频序列的特征和目标比特率。c a b a c 平均可获得7 的增益在编码具有较少细节的视频序列或使用更大的量化参数时，增益的提高会更大。多参考帧t 多参考帧对编码增益的提高依赖于编码的视频场景。在使用较少b 图像的情况下，使用b 图像能获得较多的编码增益。环路去块效应滤波：环路滤波器的主要作用是提高重建视频的主观质量；同时由于它虑除了块边界，提高了参考帧的质量。从而可以使预测更加精确。在某种程度上也能提高编码增益可变块尺寸运动估计：对于运动比较复杂的视频场景，使用可变块尺寸的运动估计能够更精确地描述基于块的平移运动，可以提高大约5 的编码性能。综合使用以上的最新编码工具，使h 2 6 4 a v c 的编码性能远远高于以往任何编码视频标准。图 2 3 是各种编码算法对典型视频序列测试得到的率失真曲线p i ：冒已芷历正 f o r e m a nq c i f10 h z 囊甏； ii 一一一一r 一一一一一一一r 一一一一一_ 一一一_ 一一一一一一一薹董藤 0艇瓤9 81 勰t 8 0l 鸵2 2 4 b i t t a r ef 婚嘲图2 3 各种编码算法的率失真曲线表2 1 是在同等条件下各种编码算法的比特率比较。从中可以看出在相同码率下h 2 6 4 a v c 的视频质量比m p e g 2 提高了大约5 d b ，而在相同视频质量的条件下h 2 6 4 a v c 的码率仅为m p e g - 2 的三分之一左右。表2 1 各种编码算法的比特率 a v e r a g eb i t - t r e es a v i n gr e l a t i v et o ： c o d e rm p e g 4a s ph 2 6 3h l pm p e g - 2 h 2 6 “a v c 【p3 7 4 4 4 7 5 8 6 3 5 7 m p e g 4a s p 1 6 6 5 4 2 9 5 h 2 6 3h l p3 0 6 1 2 2i - i 2 6 4 a v c 的网络适配层 h 2 6 4 a v c 网络适配层i s l 例的设计允许对不同的传输网络定制不同的视频数据分类和数据包传输格式，即为不同传输协议头部和净载荷部分提供合适的视频数据映射。网络适配层能够方便地将 h 2 6 4 a v c 视频编码层的数据影射到不同类型的传输层上包括；任何实时的有线和无线i n t e r a c t 业务的r t p i p 传输协议层；文件格式( 例如用于存储的i s om p 4 和m m s 等) ；应用于有线和无线会话业务的h 3 2 x ；应用于广播业务的m p e g - 2 系统。 n a l 设计中的关键组成部分是n a l 单元，参数集以及访问革元等，下面分别对它们进行简单 7 黔舸黔飘黯敷；勰鸽打辑东南大学硕士学位论文介绍。要进一步了解误差冗余等细节可以参考文献( 8 l 和【9 】。 i ) n a l 单元编码后的数据以n a l 单元的形式组织起来，每一个n a l 单元是一个有效的包含整数个字节的数据包。每一个n a l 单元的第一个字节包含了对n a l 单元中数据类型的指示符，而剩下的字节包含了相廊类型的有效载荷数据。在一些系统( 如h 3 2 0 和m p e g - 2 h 2 2 2 0 系统) 中，需要将整个或者部分n a l 单元以有序的字节流或比特流的形式进行发送，这些n a l 单元之间的边界位置就必须通过编码后的数据本身来进行识别。为了在这样的系统中应用，h 2 6 4 专门定义了一个字节流格式。在字节流格式中，每个n a l 单元前面加上了3 个字节的开始码前缀。这样n a l 单元的边界就可以通过在码流中寻找唯一

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）h264avc视频编码中的模式选择算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档