（计算机应用技术专业论文）h264avc编解码算法分析与优化.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：65 大小：1.91MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

（计算机应用技术专业论文）h264avc编解码算法分析与优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

四川大学硕士学位论文 h 2 6 4 a v c 编解码算法分析与优化计算机应用技术专业研究生柏海涛指导教师张建州随着人们对视频和音频信息的需求愈来愈强烈，追求远距离视音频同步交互成为新的时尚。近些年来，依托计算机技术、通信技术和网络技术的发展，集音频、视频、图像、文字、数据为一体的多媒体信息，使越来越多的人开始通过互联网享受到网上生活、远程医疗、远程通讯的乐趣，缩短了时区和地域的距离。在这之中，数字电视( 包括砸) t v ) 、d v d 压缩与存储、视频会议和以多媒体应用为主要特点的3 g 都是研究热点，也是多媒体技术的一个发展方向和趋势。而这其中的一个关键技术就是视频压缩技术，促使了许多视频编码标准的产生。h 2 6 4 a v c 是由i t u ( 国际电信联盟) 的v c e g 和i s o i e c 的m p e g 两大组织联合组成的j v t 共同制定的一项新的视频压缩技术标准，它使得运动图像压缩技术上升到了一个更高的阶段。在较低带宽上提供高质量的图像传输是 h 2 6 4 儿w c 的应用亮点，在同样的视觉质量前提下，比h 2 6 3 和m p e g 4 节约了5 0 的码率，而且对i p 和无线网络传输具有更好的支持功能。但h 2 6 4 获得优越性能的代价是计算复杂度的增加，这也是h 2 6 4 大规模应用的主要障碍。针对这一现状，业内也在做大量的研究，力图降低其计算复杂度和提高运行效率。本文的工作主要集中以下几个方面： 1 仔细研究了h 2 6 4 的标准，并与其他标准进行了较为全面的对比，从标准的新特点中确定了研究的重点与方向。 2 通过对j m 参考模型代码的研究，找出其中的计算瓶颈和耗时、低效的模块，并设计了一个新的模型。 3 针对计算量大、复杂度高的运动估计和补偿模块，用快速算法和简化算法减少计算量，提高运算效率。 4 针对计算量大、频繁调用，但是规则性强的运动估计插值和整数变换四川大学硕士学位论文模块，使用了m m x 、s s e 和s s e 2 等c p u 的扩展指令集进行优化，提高计算速度和效率。 5 对码率控制和视觉质量的关系和技术进行一定的分析，指出了一般应用的一些参数，并对该系统可适应的研究方向给出了一些看法，对类似应用具有指导意义。关键词：h 2 6 4 视频压缩算法优化码率控制s i m d i i q i 人学坝1 1 学位论正 a n a l y s i sa n da l g o r i t h mo p t i m i z a t i o no f h 2 6 4c o d e c m a j o r ：c o m p u t e ra p p l i c a t i o n g r a d u a t e ：b a ih a i t a ot u t o r ：z h a n gj i a n z h o u w i t ht h ee x p l o s i v eg r o w t ho ft h ed e m a n df o rv i d e oa n da u d i oi n f o r m a t i o n ，t h e p u r s u i n go fi n t e r a c t i v i t yo fv i d e oa n da u d i oo v e rl o n g d i s t a n c eh a sb e e nf a s h i o n e d i nr e c e n ty e a r s ，b a s e do nt h ed e v e l o po fc o m p u t e rs c i e n c e c o m m u n i c a t i o na n d n e t w o r k i n g ，m u l t i m e d i ai n f o r m a t i o nw h i c hi n t e g r a t e da u d i o ，v i d e o ，i m a g e s ，t e x t s a n dd a t a ，h a sf a c i l i t a t e dm o r ea n dm o r ep e o p l eb yb r i n g i n gt h ej o y so fc y b e r - l i f e ， t e l e m e d i c a la n dt e l e c o m m u n i c a t i o n s ，w h i c hs h o r t e n e dt h ed i s t a n c eo v e rt i m ea n d s p a c e a m o n gt h i s ，d i g i t a lt v ( i n c l u d i n gh d t v ) c o m p r e s s i n ga n ds t o r a g eo fd v d s ， v i d e oc o n f e r e n c ea n d3 gi st h ef o c u so fr e s e a r c ha n do n eo ft h et r e n do f m u l t i m e d i a t e c h n o l o g i e s t h ek e yt e c h n o l o g ya m o n gt h e s ea p p l i c a t i o n si sv i d e oc o m p r e s s i n g ，w h i c h b r i n g sm a n yc o d i n gs t a n d a r d so u t h 2 6 4 a v ci sn e w e s tv i d e oc o d i n gs t a n d a r do f t h ei t u tv i d e oc o d i n ge x p e l sg r o u p ( v c e g ) a n dt h ei s o i e cm o v i n gp i c t u r e e x p e l sg r o u p ( m p e g ) w h i c hg r e a t l y e n h a n c e c o m p r e s s i n gp e r f o r m a n c e a n d p r o v i d ea “n e t w o r k f r i e n d l y ”v i d e or e p r e s e n t a t i o na d d r e s s i n g 、c o n v e r s a t i o n a l ( v i d e ot e l e p h o n y ) a n d “n o n c o n v e r s a t i o n a l ”【s t o r a g e ，b r o a d c a s t ，0 1 。s t r e a m i n g ) a p p l i c a t i o n s b u tt h ee n h a n c e m e n to fc o m p r e s s i n gi sb a s e do nr a p i di n c r e a s i n go fc o m p u t e c o m p l e x i t y , w h i c hh a sb e e nt h em a i nh i n d r a n c eo fm a s s i v ea p p l i c a t i o n a i m i n ga tt h es t a t u sq u o ，m a n yr e s e a r c h e sh a v eb e e nd o n ea n db e i n gd o n e t o d e c r e a s ec o m p u t ec o m p l e x i t ya n dt o g e t h e ri m p r o v er u n n i n ge f f i c i e n c y o u rw o r k m a i n l yf o c u s e do nt h ef o l l o w i n g ： 1 a n a l y z e dt h es t a n d a r di nd e t a i la n dc o m p a r e dw i t ho t h e rs t a n d a r d s c o m p r e h e n s i v e l y , t oe s t a b l i s ht h ee m p h a s e sa n do r i e n t a t i o no ff u r t h e r s t u d y 2 b a s e do nt h es t u d yo fj m ，w ef o u n do u tt h ec o m p u t i n gb o t t l e n e c ka n d t h et i m e c o n s u m i n g ，i n e f f i c i e n tm o d u l e sa n ds e tu pan e wm o d u l e 3 a i m i n ga tt h em o d u l e st h a tc o n t a i nm a s s i v ec o m p u t a t i o na n dc o m p l e x ， f a s to rp r e d i g e s ta l g o r i t h mw e r eu s e dt oc u td o w nt h ec o m p u t a t i o n a m o u n tt oe n h a n c et h ee f f i c i e n c y u u 川人掌坝f 学位论文 4 a i m i n ga tt h em o d u l e st h a t a r ef r e q u e n t l vc a l l e db u tw e l lf o r m e d ， s i m di n s t r u c t i o n ss u c ha sm m x s s ea n ds s e 2w e r eu s e dt o o p t i m i z e ，w h i c hw o u l db r i n gah i g h e rp e r f o r m a n c e s o m ea n a l y s i sw a sg i v e n0 1 3t h er e l a t i o no fr a t ec o n t r o la n dp i c t u r e q u a l i t y , a n dw ep o i n to u tt h ep a r a m e t e r so fc o m m o na p p l i c a t i o n sa n d g i v ep e r s p e c t i v e sf o rf u r t h e rd e v e l o p m e n t k e yw o r d s ：h ，2 6 4 ，v i d e oc o m p r e s s i o n ，a l g o r i t h mo p t i m i z a t i o r , r a t ec o n t r o l ，s l m d 四川大学硕士学位论文 1 引言数字视频技术广泛应用于通信、计算机、广播电视等领域，带来了会议电视、可视电话及数字电视、媒体存储等一系列应用，促使了许多视频编码标准的产生。i t u - t 与i s o f l e c 是制定视频编码标准的两大组织，i t u t 的标准包括h 2 6 1 、h t 2 6 3 、h 2 6 4 等，主要应用于实时视频通信领域，如会议电视；m p e g 系列标准是由i s o i e c 制定的，主要应用于视频存储、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准，h 2 6 2 标准等同于 m p e g 一2 的视频编码标准，而最新的h 2 6 4 标准则被纳入m p e g 一4 的第1 0 部分，故又称为h 2 6 4 a v c ( m p e g 4p a r t1 0 ) t 0 4 1 。 1 1 研究背景与意义随着计算机技术和微电子技术的不断进步，视频处理技术与应用技术有了很大的发展，而通信网的巨大发展，也为视频技术的高速发展带来了机遇。在通信网中，无论是有线技术还是无线技术都在朝着宽带化和i p 化方向发展，而宽带化的网络最重要的特征就是能够充分地支持多媒体业务，主要就是支持不同速率、不同质量的视频业务。而通信网协议i p 化的发展，也对实时性要求较高的视频应用提出了新的要求。视频信号的数据量是很大的，压缩前电视效果的视频大概是2 1 6 m b p s ，为了达到高效的压缩，必须充分利用各种冗射5 。m 】。一般来讲，视频序列里的冗余包括两类，一类是统计冗余，它包含：( 1 ) 频谱冗余，指色彩分量之间的相关性；( 2 ) 空间冗余：( 3 ) 时间冗余，这是视频压缩区别于静止图像压缩的根本点，视频压缩主要利用时间冗余来实现大的压缩比。第二类是视觉生理冗余，这是由于人类的视觉系统( h v s ) 特性造成的，比如人眼对色彩分量的高频分量没有对亮度分量的高频分量敏感，对图像高频( 即细节) 处的噪声不敏感等。视频编码的研究课题主要有数据压缩比、压缩解压速度及快速实现算法三方面内容。四川大学硕士学位论文 1 1 1 视频压缩理论从信息论观点来看，图像作为一个信源，描述信源的数据是信息量( 信源熵) 和信息冗余量之和。信息冗余量有许多种，如空间冗余，时间冗余，结构冗余，知识冗余，视觉冗余等，数据压缩实质上是减少这些冗余量。可见冗余量减少可以减少数据量而不减少信源的信息量。从数学上讲，图像可以看作一个多维函数，压缩描述这个函数的数据量实质是减少其相关性。另外在一些情况下，允许图像有一定的失真，而并不妨碍图像的实际应用，那么数据量压缩的可能性就更大。压缩的基本原理是消除冗余，比如去除对恢复图像不必要的一些数据。许多类型的数据都含有统计冗余，可以进行无损压缩，并且解码获得图像与原始图像完全一致。然而，对于图像和视频数据来说无损压缩的效率非常低，目前所能达到的最佳压缩比在3 4 倍之间。为此，人们提出了有损压缩方法，采用有损压缩方法，解码图像的质量与源图像相比将会有所下降，但是压缩比却大大提高。一般来说，有损压缩的基本原来是消除数据中的主观冗余，以及对图像视觉效果影响较小的分量。 1 视频编解码器一个视频编解码器如下图所示，分为编码器和解码器两部分：编码器将图像和视频流编码某种格式的压缩文件；而解码器这对该文件进行编码，产生于原始相同或者相似的视频流。如果解码后的视频流，则称这次压缩过程称为无损压缩；否则称为有损压缩。图1 1 视频编码器框图编解码器采用某种模型来描述一个视频流。这种模型使得压缩数据尽可能在用最少的比特数( 高压缩效率) ，同时又保证解码后的视频流能较好地接近原四川大学硕士学位论文视频流( 保证图像质量) 。然而，压缩效率和图像质量往往是相互制约的两个指标：随着压缩数据的比特率的降低解码后的图像质量就越差。视频编码器分为三个主要功能单元：时域模型、空域模型和熵编码器i s 。9 】。时域模型的输入思维压缩的原始视频流，通常原始视频流的相邻帧之间具有较大相似性，根据这个特点，时域模型建立预测帧来降低时域冗余。预测器采用当前帧之前或之后的一帧或多帧图像作为参考，采用运动补偿技术来降低预测帧与当前帧之间的差别。时域模型的输出是当前帧与预测帧相减的结果( 残差图像) 和各个模型参数如描述运动补偿的各个运动矢量等。频域模型的输入是残差图像，它利用相邻像素点的相似性，消除残差图像的频域冗余。在m p e g 一4 和h 2 6 4 标准中，编码器对残差图像进行频率变换，再量化，得到相应的系数。变换系数经过量化后保留了少量的残差系数，他们构成了残差图像的压缩性描述，并作为频域模型的最后输出。当变码器对时域参数( 如运动矢量) 和变换系数进行压缩，消除存在的统计冗余( 例如，对出现频率较高的矢量和系数分配较短的二进制码字来表示) ，并输出压缩后的比特流和数据用于视频的传输和存储。压缩后的视频序列包括编码的运动矢量参数、变换系数以及头信息。解码器从压缩比特流中重建视频帧，首先。熵编码器解码变换系数和运动矢量；其次，变换系数通过频域模型的反变换重建残差图像；同时，解码器根据运动矢量参数和相应的参考帧产生预测帧；最后，预测帧与残差图像相加得解码端的重建图像。 2 基于块的运动估计和补偿运动估计算法分为像素递归和块匹配两大类。前者由于算法复杂，而且对于一些图像序列收敛速度很慢，甚至不收敛，因而其应用受到很大限制。块匹配技术由于算法简单，便于硬件实现而得到广泛应用。其突出特点是计算量大，目前的研究热点集中在两个方面：快速搜索算法和块匹配准则。全搜索法精度高，但计算量过于庞大，为了克服这个缺点人们提出了很多快速算法m2 “2 2 1 ，如：三步法及基于三步法的改进算法、二维对数法、交叉搜索法、四步法、预测搜索法、钻石搜索法等。三步法的第一步搜索区较大，为9 9 窗，更适合于运动幅度较大的视频序列。钻石授索法因其搜索窗是钻石形而得名，它是基于四川大学硕士学位论文这样一个事实：实际视频序列中相邻两帧的相对运动幅度都比较小。钻石搜索法国其特殊的搜索窗而能很快搜索到匹配块，因而平均搜索次数更少；同时由于3 x 3 的钻石形窗比3 x 3 的矩形窗小，所以精度也更高。它是迄今为止综合性能最优的快速搜索算法之一。块匹配准则决定何时终止搜索进程。传统上的准则有绝对平均误差函数、互相关函数、均方误差函数、最大误差最小函数等。由于传统方法没有考虑人眼视觉特性，所以判断结果和人眼的感知相差较大。近来，人们正在努力把人眼视觉特性引入到块匹配准则，提高恢复图像的主观感受质量。现在普遍采用的运动补偿方法是将当前帧分成许多长方形的块，对于每一个图像块进行运动不差。如果将当前帧分成m n 的大小，对每块图像可以做如下的操作：在参考帧( 编码并传输后的当前帧之前和之后的图像) 中搜索m n 尺寸大小的匹配块。将当前m n 与参考帧搜索区域( 一般是以当前块位置为中心的区域) 中的部分或与所有m x n 块相比较，找出其中的最佳匹配快。较常用的匹配准则是计算当前块与比较块相减后的残渣块能量，使得残渣块能量最低的比较快即为最佳匹配块。搜索最佳匹配块的过程称为运动估计。将最佳匹配块作为当前快的预测块，当前块减去预测块得到的相应的m x n 残差块( 运动补偿) 。对残差块进行编码和传输，同时预测块和当前块相对位置( 运动矢量) 也被传输给解码器。解码器根据运动矢量寻找预测块，与解码后的残差块相加，以重建原始图像块。基于分块的运动补偿算法成功的原因在于：首先，它的计算复杂度低，适用于长方形视频图像和分块图像变化；其次，它给许多视频流提供了一种高效的时域模型口j 。当前宏块减去最佳匹配宏块得到残差宏块( 包括色度和亮度) ，描述匹配块位置的运动矢量和残差宏块一起被编码和传输。在编码器内部，残差宏块同时被编码和解码，解码后的残差宏块和匹配宏块相加重建参考宏块，用于之后的运动补偿，这种方法保证了编码器和解码器使用的相同的运动补偿参考帧。 3 能量预测运动补偿的目的是将量化后的残差变换系数的能量最小。变换块的能量取决于残差块( 变换前) 。所以运动估计需要找到匹配的块或者区域，从而最小化四川大学硕士学位论文运动补偿残差的能量( 当前区域和参考区域的差) 。对“能量”的度量影响计算复杂度和运动估计过程的准确性。在块匹配法中，目前有三种常用的匹配准则 1 1 0 1 ： ( 1 ) 绝对误差和( s a e ，s u mo f a b s o l u t ee r r o r ) 准则： ( 2 ) 均方误差( m s e ，m e a ns q u a r ee r r o r ) 准则； ( 3 ) 归一化互相关函数( n c c f , n o r m a l i z e dc r o s sc o r r e l a t i o nf u n c t i o n ) 准则。在上述三种准则中，s a e 准则具有不需乘法运算、实现简单方便的优点而使用最多，但应清楚匹配准则的选用对匹配结果影响不大。 4 视频压缩方法分类应用在多媒体中的图像压缩编码方法， ( 1 ) 无损压缩编码种类哈夫曼编码算术编码行程编码 l e m p e lz e v 编码 ( 2 ) 有损压缩编码种类预测编码：d p c m ，运动补偿。频率域方法：正交变换编码f 如d c t ) ，空间域方法：统计分块编码。模型方法：分形编码，模型基编码。从算法原理上可以分类为1 3 】：子带编码。基于重要性：滤波，子采样，比特分配，矢量量化。 ( 3 ) 混合编码 j b i g ，i - 1 2 6 1 ，j p e g ，m p e g 等技术标准。衡量一个压缩编码方法优劣的重要指标是： ( 1 ) 压缩比要高，有几倍、几十倍，也有几百乃至几千倍； ( 2 ) 压缩与解压缩要快，算法要简单，硬件实现容易； ( 3 ) 解压缩的图像质量要好。选用编码方法时一定要考虑图像信源本身的统计特征：多媒体系统f 硬件和软件产品) 的适应能力；应用环境以及技术标准。四j f i x 学硕士学位论文 1 1 2h 2 6 4 的发展现状 h 2 6 4 a v c 标准的开发目标是实现多媒体业务在各个领域的应用，涉及面非常广泛，不同的应用对应的码率、分辨率、质量和服务也不同。 h 2 6 4 a v c 标准使运动图像压缩技术上升到了一个更高的阶段，在较低带宽上提供高质量的图像传输是h 2 6 4 a v c 的应用亮点，因此，h 2 6 4 a v c 将对诸如数字卫星广播、数字视频存储以及互联网传播等一系列技术进行改进，以提高视频质量，扩展多媒体业务的应用范围。 1 档次的划分目前，t 工作组已经完成了三个应用档次的标准化工作f 6 一，它们分别是： 1 ) 基本规范( b a s e l i n ep r o f i l e ) ，无需使用版权，具有开放的性质。它对i p 和无线网络传输具有更好的支持功能，引入了面向i p 包的编码机制，有利于网络中的分组传输，支持网络中视频的流媒体传输。这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。 2 ) 主要规范( m a i n p r o f i l e ) ，采用了多项提高图像质量和增加压缩比的技术措施，可用于s d t v 、h d t v 和d v d 等： 3 ) 扩展规范( e x t e n d e dp r o f i l e ) ，可用于各种网络的视频流传输。图1 2l - i 2 6 4 的三个档次和其所包含的主要技术四川大学硕士学位论文目前一个新的扩展档次的标准化工作正在进行，即专业扩展档次( e x t e n d e d p r o f e s s i o n a lp r o f i l e ) ，其主要应用为超高质量的视频图像、数字影院等。目前正在对高精度4 ：4 ：4 变换编码技术，高精度的像素描述，是否采用其它分量描述等技术问题展开讨论。 2h 2 6 4 在移动通信中的应用当前，国际上的移动视频标准正处在评估阶段，移动视频标准主要由3 g p p 、 i t u 提出。h 2 6 4 是由i t u 提出的标准，目前3 g p p 正在对它进行评估，很可能将成为移动通信的一个新标准。h 2 6 4 在抗误码、抗干扰和抑制噪声等方面，采用了原来没有使用的新技术，非常适合移动方面的需求。在音频标准方面，采用i t u g 7 2 2 国际化标准。 3h 2 6 4 在i p 网络中的应用 h 2 6 4 适用于i p 网络具有三大优势： 1 压缩率和图像质量方面对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进，使h 2 6 4 的编码效率和图像质量在以往标准的基础上进一步提高。 2 抗丢包和抗误码方面参数集、片的使用、f m o 、冗余片等关键技术的使用可以大大提高系统的抗丢包和抗误码性能。 3 网络适应性方面为适应各种网络环境和应用场合，h 2 6 4 定义了视频编码层( v c l ) 和网络提取层( n a l ) 。其中v c l 功能是进行视频编解码，包括运动补偿预测，变换编码和熵编码等功能；n a l 用于采用适当的格式对、，c l 视频数据进行封装打包。支持不同网络资源下的分级编码传输，在所有码率下都能持续提供较高的视频质量。h 2 6 4 a v c 既能工作在低延时模式以适应实时通信的应用( 如视频会议) ，又能很好地工作在没有延时限制的应用，如视频存储和以服务器为基础的视频流式应用。在相同的重建图像质量下，h 2 6 4 能够比h 2 6 3 节约5 0 左右的码率。 l 2 6 4 因其更高的压缩比、更好的i p 和无线网络信道适应性，必将在数字视频通信或 7 四川大学硕士学位论文存储领域得到越来越广泛的应用。同时也要注意，h 2 6 4 获得优越性能的代价是计算复杂度的增加，据估计，编码的计算复杂度大约相当于h 2 6 3 的三倍，解码复杂度大约相当于h 2 6 3 的两倍【1 1 】。 1 2 本文的研究工作鉴于h 2 6 4 a v c 视频编解码标准的种种新的特色，及其广泛的引用前景，不言而喻，对它的研究是具有重要意义的。本文对这一标准做了深入分析和探讨，并以t 的j m 参考代码为基础，通过对j m 的分析，设计出一套新的编解码系统。该系统使用v i s u a l c + + 6 0 ( 需要v c p p 和v c s p 5 ) 编写与调试，在 c e l e r o ni v1 7 g h z ，2 5 6 m bd d r 2 5 6 内存的p c 进行测试，结果证明本系统性能优良，可基本实现实时编解码。而与j m 参考代码相比，本系统有一下几点创新和改进： 1 j m 代码中含有大量的全局变量，这虽然对程序的性能没有太大的影响，但对程序的扩展和移植会有不利的因素；j m 的内存结构分配，所分配的内存是不连续的，不利于使用m e m s e t 和m e m c p y 函数进行批量操作：此外，j m 代码由于来源复杂，结构不够优化，大量的判断和跳转使得程序的效率被大大降低。本文针对这些不足，重新设计了数据结构，统一的结构体系和流程使得程序的结构变得清晰，并能够节约大量的内存空间，从而使得代码高效并具有较高的适应性和鲁棒性；编码时使用的最大内存空间约为6 m b ，解码2 5 m b 。 2 针对计算量大、复杂度高的运动估计和补偿模块，实现快速搜索算法和运动搜索提前截止算法简化计算过程和减少计算量，提高运算效率； 3 针对计算量大、频繁调用，但是规则性强的运动估计、半象素插值和整数变换模块，使用了m m x 、s s e 和s s e 2 等c p u 的扩展指令集取代c 代码进行优化，通过这些扩展指令集的单指令多数据及内存对齐等特征进行计算可以进一步提高速度。四川大学硕士学位论文 2h 2 6 4 标准与技术 2 1h 2 6 4 的发展历史 h 2 6 4 是由i s o i e c 与i t u t 组成的联合视频组( j v t ) 制定的新一代视频压缩编码标准。其发展经过了一个很长的历史，它继承了早期编解码标准的优点，而又融入了一些新的特色。现有的主流编解码标准分为两大系列，i t u t 的h 系列和i s o i e c 的m p e g 系列，他们的发展历史如下图所示。囡臣习习，图2 - 1 视频编解码标准的发展事实上，h 2 6 4 标准的开展可以追溯到9 年前。1 9 9 6 年制定h 2 6 3 标准后， i t u t 的视频编码专家组( v c e g ) 开始了两个方面的研究：一个是短期研究计划，在h 2 6 3 基础上增加选项( 之后产生了h 2 6 3 + 与h 2 6 3 + + ) ：另一个是长期研究计划，制定一种新标准以支持低码率的视频通信。长期研究计划产生了 h 2 6 l 标准草案，在压缩效率方面与先期的i t u t 视频压缩标准相比，具有明显的优越性。2 0 0 1 年，i s o 的m p e g 组织认识到h 2 6 l 潜在的优势，随后i s o 与i t u 开始组建包括来自i s o i e cm p e g 与i t u tv c e g 的联合视频组o v t ) ， j v t 的主要任务就是将h 2 6 l 草案发展为一个国际性标准。这一标准正式成为国际标准是2 0 0 3 年3 月在泰国p a t t a y a 举行的t 第7 次会议上通过的【“7 1 。由于该标准是由两个不同的组织共同制定的，因此有两个不同的名称：在i t u t 中，它的名字叫h 2 6 4 ；而在i s o i e c 中，它被称为m p e g 4 的第1 0 部分，即高级视频编码( a v c ) 。 9 四川大学硕士学位论文表2 1h 2 6 4 a v 0 标准化过程 n 。 t 耵j 孤【d a 协l o c a 挝o n lt l ，l a u g 1 9 9 9b d 吐g m 母 21 m l 2 o c t 1 9 9 9r 耐b a n k 毗u s a 3t m l 3f e b2 0 0 0 c , e a e v 氛s w i t z 凹i m d 4t m m a y , 2 0 0 0o s a k a , j a p 5t m 【，5 a u g 2 0 0 0 p 啊t i = m 虚o k u s a 6t h 2 0 0 le 】b tc d m a n y 7t m l - 7 a 算2 0 0 1a s 虹 i xu s a 8t m l - 8妇2 。0 1p o l os e a t o ，b i - a z f l 9t d l 9 潍2 0 0 1 s 乜b b nc a , u s a 1 0 孙昼l d 2 1p - 啦a y a , 司1 蚵硼 1 1j m 一2融2 0 0 2g e a e w s w 沁m f 1 2珏”妇2 0 0 2f a t , - f e 逝u s a ” 弛l _ 车j 出2 0 0 2 k 踊嗣虹尚她 1 4b 5o c t 2 0 0 2g a _ 脯+ s v , i 衙i m d 1 5珏“ d e c 2 0 0 2a 蛹ij 种 1 6弛越m 越2 0 0 3n 掣噩l 曲删 2 2h 2 6 4 的体系结构 2 2 i 标准化目标与其他的早期视频编解码标准相比，h 2 6 4 的目标也是提高压缩比，降低码率，获得更好的视频效果和差错和误码回复。从实现的角度来讲，就是对采用不同方法编码的视频序列，能够解码出同样的视频n - 4 。图2 2i - i 2 6 4 视频编码标准化的目标 2 2 2h 2 6 4 的分层结构 h 2 6 4 分两层结构，包括视频编码层和网络适配层，这使得h 2 6 4 具有对四川大学硕士学位论文各种异构网络的提供很好的支持性 2 “】，如下图所示图2 3h 2 6 4 的编码器的两层结构 h 2 6 4 a v c 编码器的体系结构视频编码层处理的是块、宏块和片的数据，并尽量做到与网络层独立，这是视频编码的核心，其中包含许多实现错误恢复的工具；网络适配层处理的是片结构以上的数据，使h 2 6 4 能够在基于 r t p u d p i p 、h 3 2 3 m 、m p e g - 2 传输和h 3 2 0 协议的网络中使用。 h2 甜聃v c c o n c e p t u a ll a y e r s v i d e oc o d l r l gl a y e r v i d e o c o d i n g 。l a y e r e n c o d e r l v c l d a l “ * l n e t w 钟ka b s t r ad i n e t w o ma b s t r a c t l o n l a y e r e r l c o d e rl a y e rd e d e r n 慧e 晰f 聃# 咖ai ，赫把瓣舢。“t 幽幽幽h , 2 6 4 t o 幽h z e 4 t o 、毫菇嚣h s 【 l 蝴挎d n b 商料虹| 1 w i 删e 苕s 铺_ 。f 如i ” 图2 4h 2 6 4 a v c 支持的网络接口类型 n a l 用于定义适合传输层或存储介质需要的数据格式，同时提供头信息，从而提供视频编码与外部世界的接口。它是以n a l u ( n a lt m i t ) 为单元来支持编码数据在大多数基于包交换技术网络中的传输的。每个单元都包含一个整数四川大学硕士学位论文的字节数。一个n a l 单元定义了可用于基于包和基于比特流系统的基本格式。区别这两种格式的标准在于每个比特流传输层都有一个起始代码。在n a l 解码器接口，它假定按传输顺序传递n a l u ，同时，如果在有效载荷中包含位错误，则在n a l u 的头部设置标识接收正确的、丢失的或错误的位数据的标识位。 2 2 3 编解码器结构 h 2 6 4 在编码框架上还是沿用以往的m c d c t 结构，即运动补偿加变换编码的混合编码( h y b r i d ) 结构，使用基于块的运动估计和补偿、变换编码和熵编码技术，其编码与解码的流程图如下： t 一蚪 h 一二卜 h ：裟 p衄l口吼1 e 。圈2 5h 2 6 4 a v c 编码流程结构图26h 2 6 4 a v 0 解码流程结构 2 3h 2 6 4 体系设计的特点毋庸置疑，h 2 6 4 在压缩性能上要比其他标准优越，甚至包括m p e g 一4 ( 2 ) ( m p e g 4 第2 部分) 。众所周知，m p e g - 4 ( 2 ) 最大的特点就是面向对象的编码，四川大学硕士学位论文对象概念的提出是具有先进性的，在对象已经提取出来的条件下确实能够获得很高的压缩比，但是如何提取对象成为摆在人们面前的一大难题。一个真正的对象提取算法应该是像人一样具有智能，能够像人一样进行思维并且是能够学习的，而目前的技术根本达不到这点。正因为如此，m p e g 一4 ( 2 ) 面向对象编码的思想过于超前。i t u t 的v c e g 放弃了对象这一不现实的概念，与目前科学技术的发展水平相适应，提出了h 2 6 4 a v c 视频编码标准，这是难能可贵的，更重要的是它同样实现了m p e g 4 ( p a r t2 1 面向对象编码的目标之高压缩比。 h 2 6 4 它保留了一些先前标准的特点，如不受限制的运动矢量( u n r e s t r i c t e d m o t i o n v e c t o r s ) ，对运动矢量的中值预测( m e d i a n p r e d i c t i o n ) 等。以下介绍的技术使得h 2 6 4 比之前的视频编码标准在性能上有了很大的提高，这个提高不是单靠某一项技术实现的，而是由各种不同技术带来的小的性能改进而共同产生的。 2 3 1 帧内预测与以前的标准不同的是，h 2 6 4 在编码i 帧时，采用了帧内预测，然后对预测误差进行编码。这样就充分利用了空间相关性，提高了编码效率。对i 帧的编码是通过利用空间相关性而非时间相关性实现的。以前的标准只利用了一个宏块内部的相关性，而忽视了宏块之间的相关性，所以一般编码后的数据量较大。为了能进一步利用空间相关性，h 2 6 4 引入了帧内预测以提高压缩效率。简单地说，帧内预测编码就是用周围邻近的像素值来预测当前的像素值，然后对预测误差进行编码。这种预测是基于块的，对于亮度分量( 1 u m a ) ，块的大小可以在1 6 x 1 6 和4 x 4 之间选择，1 6 1 6 块有4 种预测模式，4 x 4 块有 9 种预测模式；对于色度分量( c h r o m a ) ，预测是对整个8 x 8 块进行的，有4 种预测模式。除了d c 预测外，其他每种预测模式对应不同方向上的预测。 14 4 亮度预测模式 4 4 子块的预测( 见图2 7 ) ，1 6 个子块a p 组成了预测块p 。当左边和上边的采样点a l 已经重建好后，它们就能作为预测的参考子块。有9 种预测模式 ( 图2 8 ) ：四j i l k 学硕士学位论文口一口co ；弦习趣：；i m 。一 d ，心侈- 砀麓， 6s 瞬霉素点静稍臻舞式图274 x 4 的帧内预测模式图2 8 亮度分量的4 4 帧内预测模式 ( 0 ) 垂直预测：上方采样点的值被分别用作各列的预测值。( 1 ) 水平预测：左边采样点的值被分别用作各行的预测值。( 2 ) 均值( d c ) 预测：采样点 a - l 值的均值被用作整个2 的预测值。( 3 ) 左下对角预测：各子块预测值由采样点从右上方相邻像素( 如a 的a ，b ，c ) n 左下方相邻像素( 如f t 的i ，j ，k ) 沿4 5 度方向插值得到。( 4 ) 右下对角预测：各予块预测值由采样点从左上方到右下方沿4 5 度方向插值得到。( 5 ) 垂直向右预测。( 6 ) 水平向下预测。( 7 ) 垂直向左预测。( 8 ) 水平向上预测。模式0 ：垂直预测。a ，e ，i ，m 用a 预测；b ，f ，j ，1 1 用b 预测：c ，g ， k ，o 用c 预测：d ，h ，l ，p 用d 预测。模式2 ：d c 预测。若a ，b ，c ，d ，i j ，k ，l 都是可得的，则所有被预测样本值为( a + b + c + d + i + j + k 十l + 4 ) 3 ( 右移三位) ；若仅a ，b ，c ，d ( 或仅i ，j ，k ，l ) 可得，则被预测样本值为( a + b + c + d + 2 ) 2 ：若都不可得，则被预测样本值为1 2 8 。模式3 ：下左对角线预测( 只有a ，b ，c ，d ，i ，j ，k ，l 都可得时可以 1 4 四川大学硕士学位论文使用) 。 a 用( a + 2 b + c + i + 2 j + k + 4 ) 3 预、坝0 ： b ，e 用( b + 2 c + d + j + 2 k + l + 4 ) 3 预钡9 ； e ，f ，i 用( c 卜2 d + e + k 十2 l + m + 4 ) 3 预钡0 ： d ，j ，g ，m 用( d + 2 e + f + l + 2 m + n + 4 ) 3 预_ i 田0 ； h ，k ，n 用( e + 2 f + g + m + 2 n + o + 4 ) 3 预测； l ，o 用( f + 2 g + h + n + 2 0 + p + 4 ) 3 预澳0 ； p 用( g + h + 0 + p + 2 ) 2 预钡4 。其它几种4 4 的帧内预测模式可以用类似的方法获得。编码器按照这9 种模式遍历计算出预测子块的值，并与预编码的真实子块像素对应相减，依据某种准则( 如最小s a d 准则) ，找到残差最小的模式，撮后对残差变换编码。 21 6x 1 6 亮度预测模式 1 6 x 1 6 宏块的预测分为4 种方法；( i ) 垂直预测：宏块上方各子块采样值被用作宏块对应一整列的预测值。( 2 ) 水平预测：宏块左边各子块采样值被用作宏块对应一整行的预测值。( 3 ) 均值预测：宏块上方与左边各子块采样值的均值被用作宏块预测值。( 4 ) 平面预测：宏块预测值右上方和左边各子块采样值按左下到右上的方向插值得到。模式0 ：模式1 ：模式2 ：模式4 ：图2 9 帧内亮度1 6 x 1 6 块的预测模式 ( 垂直预测) 由上面的抽样值插补( h ) ； ( 水平预测) 由左边的抽样值插补( v ) ； ( 直流预测) 由上面的和左侧的抽样值平均数插补( h + v ) ； ( 平面预测) 由上面的和左侧的抽样值插补。线性“平面”可设置由四川大学硕士学位论文上面和左侧的抽样值h 和v 插补，这在平滑的亮度区域效果较好。 38 8 色度预测模式由于采用4 ：2 ：0 采样，色度的分辨率只有亮度的一半，所以色度以8 8 为单位预测，也有4 种预测模式，但它的预测模式的顺序与1 6 1 6 有些不同，分别是：m o d e 0 直流分量d c 、m o d e l 水平、m o d e 2 垂直、m o d e 3 平面。所有的色度块都具有相同的预测模式。 2 3 2 帧间预测 h 2 6 4 的帧间编码的特点：仍然是基于动态估计和补偿，以消除时域相关性，是压缩效率的重要来源。与以往的标准不同的是，h 2 6 4 支持7 种不同尺寸和形状的宏块( 1 6 1 6 ) 和子宏块( 8 8 ) 分割，分别为：1 6 1 6 ，1 6 8 ，8 1 6 ，8 8 ，8 4 ，4 8 ， 4 4 ，这种多模式的灵活、细微的宏块

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）h264avc编解码算法分析与优化.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）h264avc编解码算法分析与优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档